SlideShare ist ein Scribd-Unternehmen logo
1 von 60
Downloaden Sie, um offline zu lesen
QUALITÄTSSICHERUNG
           BEI ANNOTATIONEN
          und technologische Verfahren
             in der Medienbranche

        Sandra Schön und Georg Güntner

unter Mitwirkung von Jean-Christoph Börner, Sven Leitinger,
     Marius Schebella, Andreas Strasser, Stefan Thaler,
         Michael Vielhaber und Andrea Wolfinger
Das Kompetenzzentrum für Neue Medien, Salzburg
NewMediaLab – The Next Generation (SNML-TNG)
arbeitet unter der Koordination der Salzburg Research
Forschungsges.m.b.H. daran, digitale Inhalte zu personali-
sieren, für alle auffindbar zu machen und nachhaltig zu
nutzen: Dazu werden Informationen auf der Ebene der In-
halte (Linked Content), der stukturierten Daten (Linked
Data) und der sozialen Interaktion (Linked People) ver-
knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me-
dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe-
tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit-
teln des BMWFJ, des BMVIT und des Landes Salzburg.
Homepage: www.newmedialab.at



© Salzburg NewMediaLab – The Next Generation – November 2012

ISBN 978-3-902448-32-3

Sandra Schön, Georg Güntner, Jean-Christoph Börner, Sven Leitinger,
Marius Schebella, Andreas Strasser, Stefan Thaler, Michael Vielhaber
und Andrea Wolfinger:

Qualitätssicherung bei Annotationen.
Soziale und technologische Verfahren in der Medienbranche.


Band 5 der Reihe „Linked Media Lab Reports“,
herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert

Verlag und Herstellung: Salzburg Research, Salzburg
Umschlaggestaltung: Daniela Gnad, Salzburg Research




Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikation
in der Deutschen Nationalbibliografie; detaillierte bibliografische
Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Vorwort
Das Kompetenzzentrum für Neue Medien agiert als Denkfabrik für innovative
Konzepte und Lösungen für die österreichische Medien- und Content-Industrie
und bietet Technologieanbietern und den Betreibern von Internet-Plattformen
eine Heimat zur Entwicklung und Erprobung innovativer Informationsarchitek-
turen. Gemeinsam mit führenden Vertretern der Medien- und Content-Industrie
wurden dabei von Beginn an konkrete Lösungen entwickelt und erfolgreich umge-
setzt.
Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia-
Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in
der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im
Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des
Semantic Web erstmals die Bedeutung von Inhalten auch für Computer-
programme begreifbar zu machen. In dieser Zeit arbeitete das Salzburg New-
MediaLab an der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Ver-
wendungsbereich automatisch anpassen.
Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die
Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte
Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler
Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da-
ten und von Akteuren bzw. auf deren sozialen Interaktion mit den Inhalten be-
ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes
der Akteure bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene
Anwendungen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung
personalisierter Inhalte zu reduzieren.
Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter
der Koordination der Salzburg Research Forschungsgesellschaft führende öster-
reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG, Salz-
burger Nachrichten, derStandard.at) und Softwarehäuser (mediamid, Semantic
Web Company, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von For-
schungseinrichtungen im Bereich der Multimedia-Technologien, des Semantic
Web und der sozialen Medien (Studiengang MultiMediaTechnology der FH Salz-
burg, Semantic Technology Institut der Universität Innsbruck, Salzburg Research).
Im Rahmen der Forschungsarbeiten beschäftigen wir uns schwerpunktmäßig mit
Fragestellungen zur unternehmensweiten Suche („Semantic Enterprise Search“)
und mit Verfahren zur Annotation von Unternehmens-(Daten-)Ressourcen. Dabei
spielt die Qualitätssicherung bei Annotationen eine zunehmend wichtige Rolle,
weil die Qualität der Annotationen – gerade im Bereich der audiovisuellen Medi-
en, wo automatische inhaltsbasierte Analyseverfahren noch keine befriedigenden
Ergebnisse liefern – eine wichtige Voraussetzung für die Qualität der Suchergeb-
nisse ist.
Wir hoffen, mit diesem fünften Band der „Linked Media Lab Reports“ einen gelun-
genen Einblick in die Möglichkeiten der Qualitätssicherung von Annotationen zu
geben.
Auch im Namen von Sandra Schön bedanke ich mich dabei herzlich bei unseren
Partnern und Ko-Autorinnen und Autoren, namentlich Dipl-Infowiss. Jean-Chri-
stoph Börner (Leiter Mediendokumentation und TV-Archiv ServusTV), MSc. Sven
Leitinger (Salzburg Research) Dr. Andreas Strasser (Salzburg Research), Stefan
Thaler (ehemals STI Innsbruck), Mag. Andrea Wolfinger (Redakteurin Dokumen-
tation / ORF – Dokumentation & Archive – FZ2) sowie B.A. Michael Vielhaber
M.P.O.S. (Redakteur Dokumentation / ORF – Dokumentation & Archive – FZ2).
Herzlichen Dank auch an MSc. Marius Schebella (FH Salzburg) für seine Hinweise
und Verbesserungsvorschläge!
Georg Güntner
www.newmedialab.at
Zentrumsleiter
November 2012
Inhaltsverzeichnis

  Einleitung und Hintergrund........................................................................... 7
     Einleitung................................................................................................. 7
     Hintergrund.............................................................................................. 8
  Annotationen: Entstehung und Einsatz.......................................................... 9
    Annotationen........................................................................................... 9
    Die Entwicklung von papierbasierten zu digitalen Annotationen .............9
    Annotationsformen und -kombinationen............................................... 12
  Qualität von Annotationen und ihre Rolle für die Medienbranche..............15
    Rolle von Annotationen in der Medienbranche...................................... 15
    Qualität von Annotation......................................................................... 15
    Kriterien nach Annotationstyp................................................................16
  Der Prozess der Annotation und Ansatzmöglichkeiten der
        Qualitätssicherung............................................................................ 17
     Der Prozess der Annotation: Beteiligte und Rahmenbedingungen.........17
     Ursache von Qualitätsmängeln...............................................................18
     Qualitätssicherung................................................................................. 19
     Qualitätsmanagement nach ISO-9000.................................................... 19
     Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche
            ..................................................................................................... 20
     Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen............20
     „Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick
            ..................................................................................................... 22
  Soziale Prozesse der Qualitätssicherung...................................................... 23
     (a) Entwicklung von Klassifikationsschemas und Regelwerken...............23
     (b) Überprüfung des Klassifikationsschemas auf Konsistenz...................25
     (c) Doppelte und mehrfache Annotation................................................ 25
     (d) Schulung von Kategorienschemas und Annotationstraining..............25
     (e) Überprüfung der Anwendung von Klassifikationsschemas................25
     (f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren...............26
     (g) Zusammenarbeit von Archivaren und Kunden/Nutzern....................27
     (h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit ..........27
     (i) Erhebung des Nutzerverhaltens......................................................... 27
Technologische Unterstützung der Qualitätssicherung................................29
   (a) Unterstützung bei der Erstellung und beim Management von
           Kategorienschemas (Taxonomien)............................................... 29
   (b) Steuerung des Annotationsprozess................................................... 30
   (c) Vergleich der Annotationen und Bereinigung bei Mehrfach-
           Annotation................................................................................... 31
   (d) Qualitätsprüfung mit Hilfe automatischer Annotationen .................31
   (e) Monitoring des Annotationsprozess..................................................32
   (f) Qualitätssicherung mit und von (semi-) automatischen Annotationen
           ..................................................................................................... 32
   (g) Einsatz von Empfehlungssystemen für Annotationsvorschläge.........34
   (h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags
           ..................................................................................................... 35
   (i) Spielbasierte Ansätze zur Qualitätsprüfung........................................36
   (j) Qualitätssicherung auf Seiten der Nutzer/innen................................38
Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in
       Medienarchiven................................................................................ 43
   Qualitätssicherung der Annotation in der täglichen Praxis des
          ORF-Fernseharchives................................................................... 43
   Qualitätssicherung der Annotation bei Servus TV...................................47
   Zusammenschau der Qualitätssicherungsaktivitäten in Fernseharchiven
          ..................................................................................................... 49
Ausblick und Entwicklungen........................................................................ 51
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche




    EINLEITUNG UND HINTERGRUND


Einleitung
Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu
können, wird mit Annotationen gearbeitet. Dabei ist essentiell, dass es sich hierbei
nicht um „irgendwelche“ Annotationen handelt, sondern Anmerkungen, Schlag-
worte und weitergehende Informationen, die spätere Verwendungen, z.B. die Re-
cherche, tatsächlich unterstützen. Wichtig ist also, insbesondere in der Medien-
branche, in der es viele nicht-textuelle Beiträge gibt, die Qualität der Annotationen
zu gewährleisten und abzusichern. In Handbüchern zum Projektmanagement
oder Qualitätsmanagement im Multimedia-Bereich hat das Thema bisher keinen
Einzug gefunden: Beispielsweise gibt es den Begriff „Annotation“ im ganzen Buch
„Multimedia-Projektmanagement“ von Schifma und Heinrich (2001) nicht. Er
taucht auch nicht im „Handbuch Medienproduktion (Krömker & Herkenrath,
2005) im Lehrbuch „Medienmanagement (Altendorfer & Hilmer, 2006) oder im
„Medien- und Internetmanagement (Wirtz, 2005) auf.1
In unserem Bericht wird zunächst einführend geklärt, was Annotationen und ihre
Zielsetzungen sind und auch, welche Annotationsformen und -bedürfnisse es vor
allem in der Medienbranche gibt. Danach stellen wir Verfahren vor, wie man die
Qualität von Annotationen sichern kann. Dabei werden sowohl soziale, als auch
technologische Verfahren vorgestellt.
Dazu werden wir den Forschungs- und Praxisstand zu folgenden Fragen beschrei-
ben und erörtern:
– Was sind Annotationen und welche Rolle spielen sie in der Medienbranche?
– Welche sozialen Prozesse können die Qualität von Annotationen sichern?
– Welche technischen Prozesse und Methoden können die Qualität von Annotatio-
  nen sichern?
– Welche Verfahren werden derzeit in der Medienbranche tatsächlich eingesetzt?
Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren-
de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in
Forschungsarbeiten erwähnt werden oder wie sie bei unseren Medienpartnern
eingesetzt werden. Dieser Lab Report stellt damit eine Basis für weitere wissen-
schaftliche und praktische Maßnahmen dar.




1
    Hierbei beziehen wir uns auf Recherchen mit Hilfe der Volltextsuche bei Amazon.de
    (Stand 2012-09-30)


                                                                                                    7
Einleitung und Hintergrund



Hintergrund
Das Kompetenzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge-
neration“, räumte im Rahmen seiner Forschungstätigkeit dem Thema „Annotatio-
nen“ einen besonderen Stellenwert ein: Annotationen als Basis für semantische
Suche bildeten den Schwerpunkt des 2. Forschungsjahres (Juli 2011 bis Juni
2012). Unter der Bezeichnung „Linked Media“ entwickelte das Kompetenzzen-
trum seit 2010 Konzepte und Technologien für den Einsatz der vom World Wide
Web Consortium (W3C) proklamierten Linked Data Prinzipen2 in der Medien- und
Content-Industrie. Mit dem „Linked Media Framework“ (LMF3) wurde 2011 auch
eine Referenzimplementierung für ein Toolset zur Verwaltung von Metadaten, In-
halten und Annotationen nach den Prinzipien des W3C als Open Source Plattform
bereitgestellt, die kontinuierlich weiterentwickelt und mittlerweile als Referenz-
implementierung bei Apache Software Foundation (ASF 4) eingereicht wurde.
Der Linked Media Ansatz erlaubt die Verwaltung von Ressourcen (Text, Videos,
Metadaten, usw.) in einem standardisierten Format auf eine solche Weise, dass
diese mit weiterführenden Begriffen, Hintergrundinformation und Beschreibun-
gen auf einfache Art verknüpft werden können. Beispielsweise können Fragmente
eines Videos mit den Biographien oder den Fotos der im Video vorkommenden
Akteure verknüpft werden. Gleichermaßen können abgebildete Gegenstände und
vorkommende Bildelemente mit weiteren Informationen innerhalb des Unterneh-
mens verknüpft werden. Konkret wurde ein solches Verfahren für Red Bull Media
House GmbH5 entwickelt, um die in einem Video abgebildeten Athleten eines
Sport-Ereignisses mit der Athletendatenbank des Medienhauses zu verknüpfen.
Dadurch erhalten die Redakteuren „auf Mausklick“ Hintergrundinformationen zu
den Akteuren.
Diese Art von semantischen Verknüpfungen bildet in der Medien- und Content-In-
dustrie eine wesentliche Voraussetzung für die Einführung einer unternehmens-
übergreifenden Suche: Sie erschließt unterschiedliche Informationssysteme und
„Datensilos“ (beispielsweise die Mediendatenbank und die Athletendatenbank)
und sie berücksichtigt die Bedeutung von Begriffen (beispielsweise „erkennt“ ein
solches System, dass „Wien“ eine Stadt im Staat „Österreich“, oder eine bestimmte
Person Mitarbeiter/in in einem bestimmten Projekt ist).
Das „Salzburg NewMediaLab – The Next Generation“ agiert als anwendungs-
orientierte Forschungsplattform für die Medien- und Content-Industrie, indem es
derartige Verfahren nicht nur konzeptionell bereitstellt, sondern die Unterneh-
men bei der Einführung derartiger innovativer Technologien begleitet.



2
    Linked Data Principles: http://www.w3.org/DesignIssues/LinkedData.html (2012-10-31)
3
    Linked Media Framework (LMF): http://www.newmedialab.at/LMF (2012-10-31)
4
    Apache Software Foundation (ASF): http://www.apache.org/ (2012-10-31)
5
    Red Bull Media House GmbH: http://www.redbullmediahouse.com/ (2012-10-31)


8
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



    ANNOTATIONEN: ENTSTEHUNG UND EINSATZ


Annotationen6
In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be-
deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio-
nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter
der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die
zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet
werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert,
ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne-
ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören
oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010)




                                                    Abbildung 1: Handschriftliche Notizen und Annotationen.
             Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (15.3.2011)


Die Entwicklung von papierbasierten zu digitalen Annotationen
Nicht nur auf Papier, z.B. Notizen am Rand von Büchern, wird annotiert. Im World
Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder
auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom-
men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho-
mepages oder Profile bei Facebook, annotiert werden.

6
    Bereits im Band 4 der Linked Media Lab Reports („Smarte Annotationen“) haben wir
    eine kurze Einführung zu Annotationen gegeben: vgl. Seite Schön u.a. 2011, S. 9f., eini -
    ge Abschnitte stammen im Folgenden von Dr. Andreas Strasser (Salzburg Research For-
    schugnsgesellschaft mbH).


                                                                                                         9
Annotationen: Entstehung und Einsatz


Digitale Annotationen sind digitale Objekte, die an andere digitale Objekte „ange-
hängt“ sind. Zunächst wurden papierbasierte Annotationsformen für die digitale
Welt adaptiert. Dokumente sind dabei mit Metainformationen versehen worden,
die die Klassifikation von Inhalten bzw. die Indexierung und Abfrage von Inhalten
ermöglicht haben. Zunächst wurde diese Form der Annotierung auf Text ange-
wandt, später auch auf andere digitale Dokumente (z.B. eine Website, eine Bild
bzw. ein Videostream). Annotationen können dabei sowohl ergänzende Informa-
tionen zu einem Dokument für mich selbst darstellen (d.h. Annotationen erlauben
mir, die gegebene Information des Dokuments durch eigene zusätzliche Informa-
tionen zu versehen), kann aber auch in kollaborativen Prozessen eingesetzt: d.h.
Ideen und Meinungen zu gemeinsamen Dokumenten unterschiedlichster Art kön-
nen ausgetauscht werden. (Hofman 2010, 12f).
Im Mai 2012 fasste die Open Annotation Community Group 7 des World Wide Web
Consortiums (W3C) eine Reihe von bedeutenden Vorarbeiten zur Spezifikation
von Annotationen zusammen und entwickelte mit dem Open Annotation Core
Data Model8 ein Referenzmodell für die Annotation von (Web-)Ressourcen, des-
sen Grundprinzip in der folgenden Abbildung dargestellt ist:




                       Abbildung 2: Grundprinzip einer Annotation nach dem Open Annotation Core Model.
                                         Quelle: http://www.openannotation.org/spec/core/ (30.9.2012)

Eine Annotation wird prinzipiell als eine Verbindung zwischen der annotierten
Ressource („target“) und dem Inhalt der Annotation („body“) definiert. Die Ver-
bindung bedeutet, dass der Inhalt der Annotation („body“, z.B. ein Kommentar
oder eine Klassifikation) irgendwie mit der annotatierten Ressource („target“, z.P.

7
    Open Annotation Community Group: http://www.w3.org/community/openannotation/ (30.09.2012)
8
    Open Annotation Core Data Model: http://www.openannotation.org/spec/core/ (30.09.2012)


10
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


Einer Textstelle, einem Abschnitt eines Videos oder einem Ausschnitt eines Bil-
des) zu tun hat.
Das Open Annotation Core Data Model unterstützt über diese Grundprinzipien
hinausgehend semantisches Tagging, das Einbetten von Inhalten, die Auswahl von
Ausschnitten von Ressourcen, die Wahl geeigneter Repräsentationen von Res-
sourcen und die Bereitstellung von Hinweisen zur Darstellung für die Nutzer von
Annotationen. Das Modell ist gleichermassen offen gegenüber computer-gestütz-
ten Auswertungen der Annotation und gegenüber Auswertungen durch Men-
schen.
Die wichtigsten Grundlagen für die Entwicklung des Open Annotation Core Mo-
dels bildten die unter Apache 2.0 Lizenz verfügbare Annotation Ontology 9 und die
Open Annotation Collaboration10. Eine Erweiterung dieses Grundmodells für Vi-
deos, Audio und Bilder erfolgte durch die Media Annotation Working Group 11 der
Video in the Web Activity des W3C: Die Arbeiten dieser Gruppe umfassen die On-
tology for Media Resources12 und eine Anwendungs-Programmierschnittstelle
(API) für Medien Ressourcen13.Ziele der Annotation
Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate-
rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab-
sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un-
terscheiden.
Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An-
notationen vor allem
– um die Recherche der Materialien zu verbessern,
– um gute Empfehlungen für passendes eigenes weiteres Material zu geben,
– um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen
  zu können (z.B. mit dem Linked-Data-Ansatz),
– um das Ranking auf Suchmaschinen zu verbessern,
– um das unternehmensinterne Wissensmanagement zu verbessern und
– um mit Methoden des Webmonitoring das eigene Material und dessen Entwick-
  lung beobachten und bewerten zu können.


Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig
– für das eigene Informationsmanagement und
– um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos
  bei Facebook mit dem Namen von Kontakten versehen werden.
9
     Annotation Ontology: http://code.google.com/p/annotation-ontology/ (30.09.2012)
10
     Open Annotation Collaboration: http://www.openannotation.org/commRes.html (30.09.2012)
11
     Media Annotation Working Group: http://www.w3.org/2008/WebVideo/Annotations/ (30.09.2012)
12
     Ontology for Media Resources: http://www.w3.org/TR/2012/REC-mediaont-10-20120209/ (30.09.2012)
13
     API for Media Resources: http://www.w3.org/TR/2011/WD-mediaont-api-1.0-20111122/ (30.09.2012)


                                                                                                      11
Annotationen: Entstehung und Einsatz


Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo-
tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots
ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei-
gen wird, entstehen Annotationen nicht zwangsläufig bewusst.

Annotationsformen und -kombinationen
Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da-
von vorgestellt.

Professionelle Klassifikation
Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt.
Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte,
die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re-
cherchieren kann. Mit Hilfe von Terminologien (z.B. kontrollierten Vokabularen
und Thesauri) werden Terme in Verbindung gebracht, so dass beispielsweise ein
Text zu Skifahren dem Bereich „Sport“ zugeordnet werden kann. In traditionellen
Medienarchiven werden Materialien zu Kategorien und Unterkategorien zugeord-
net, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte bein-
halten. Ein Beispiel für eine mehrsprachige Taxonomie für den Nachrichtenbe-
reich bilden die IPTC NewsCodes 14.

Freie Verschlagwortung und Social Tagging
Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder
andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu
markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön-
nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä-
re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009).
Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten
Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer
beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der
Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen
Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint
& Westenthaler, 2009, 192). Die Grenzen dieses Ansatzes werden rasch etwa an
den Herausforderungen der Mehrsprachigkeit (z.B: deutsch „Venedig“, englisch
„Venice“) oder – ganz abgesehen von Schreibfehlern – an unterschiedlichen einge-
bürgerten Schreibweisen (z.B. „Tchaikovsky“, „Tschaikovski“) deutlich.

Automatische Annotation
Neben den von Personen durchgeführten Annotationen gibt es auch automatisch
generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern
Informationen generiert. Auch können die zahlreichen (Meta-) Informationen, die
14
     http://www.iptc.org/site/NewsCodes/ (28.08.2012)


12
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


im Web anfallen und gesammelt werden, bei der Entwicklung von Annotationen
berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er aufgeru-
fen, wen interessiert eine Webseite?

Kombination der Ansätze
Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus-
drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi-
schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen
der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro-
blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es
oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert
wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma-
chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem
Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku-
mente z. B. über entsprechende Suchfunktionen nicht auffindbar.
Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden
die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl
& Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati-
onsextraktion) mit manuell erzeugten Metadaten durch Tagging oder Klassifikati-
on.

Annotationstypen im Multimedia-Bereich
Fragt man einen Praktiker, lassen sich (zumindest) folgende Typen der Multime-
dia-Annotationen unterscheiden:
– Klassifikation: jede Art der Annotation, die ein Asset, also eine Medieneinheit ei-
  ner Gruppe zuordnet.
– Beschreibung des Inhalts: Beschreibung (vor allem) von Audio- und Video-As-
  sets („was ist im Video zu sehen?“), aber auch von Text-Dokumenten („was ist
  der Inhalt des Dokuments?“).
– Metadaten (Aufnahmeort, technische Spezifikation, Länge, etc.)
– Kommentare (weitere Hinweise, Anmerkungen)
Klassifikationen können dabei in verschiedenen Bereichen getroffen werden: z.B.
bei Art eines Berichts (z.B. ein Interview, ein Live-Bericht, eine Dokumentation),
oder z.B. die Sparte des Videos (z.B. Sport, Politik, Religion). Musikstücke werden
beispielsweise nach Genre eingeteilt (z.B. Klassik, Pop, Rock), können aber auch
nach Epoche (z.B. Klassik, Romantik, Moderne) kategorisiert werden oder auch
nach Anwendungszweck (z.B. Kirchenmusik, U-Musik).
Bei der Beschreibung des Inhalt lassen sich u.a. die Objekt-Ebene (was/wer ist zu
sehen) sowie die Inhalts-Ebene (worum geht es) unterscheiden.




                                                                                               13
Annotationen: Entstehung und Einsatz


Weiters unterscheiden wir nach Ossenbruggen, Stamou und Pan (2005) drei An-
notationsebenen:
– Rohdaten, beispielsweise die MPEG-3- oder JPG-Daten, also die reinen Multime-
  dia-Daten
– strukturelle Beschreibungen, beispielsweise mit XML oder MPEG-7, also struk-
  turierte Informationen zu den Rohdaten sowie
– semantische Beschreibungen, beispielsweise in RDF, OWL oder Regeln beschrie -
  ben.
Ossenbruggen et al. (2005) bezeichnen diese Ebenen dabei als subsymbolische,
symbolische bzw. logische Schichten und weisen darauf hin, dass sie technolo-
gisch nicht trennscharf realisiert werden.

Die Handelnden: Annotierende
Zwar ist der Begriff der Annotation einschlägig bekannt, beim Schreiben dieses
Lab Reports ist uns jedoch aufgefallen dass es – zumindest im Deutschen – bisher
keine einheitliche Bezeichnung für die Person gibt, die eine Annotation macht. So
verwendete unsere Autorinnen und Autoren auch unterschiedliche Begriffe, u.a.
„Annotateure“, „Annotierer“ und „Annotator“. Auch wir konnten und wollten uns
nicht festlegen. Und natürlich sind gleichermaßen Frauen und Männer gemeint
wenn wir im Folgenden einen der Bezeichnungen verwenden.




14
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



    QUALITÄT VON ANNOTATIONEN UND IHRE ROLLE FÜR DIE MEDIEN-
    BRANCHE

Was macht nun eine qualitativ hochwertige Annotation von Medienressourcen
aus? Und welche Rolle spielt diese Qualität für die Medienbranche?

Rolle von Annotationen in der Medienbranche
Um die Frage nach qualitativ guten Annotationen beantworten zu können, ist zu-
nächst wichtig zu klären, wie und warum in der Medienbranche mit Annotationen
gearbeitet wird. Sie nutzt Annotationen unter anderem
– für das eigene Informationsmanagement,
– um die Recherche der Materialien zu verbessern,
– um Materialien für andere erschließbar zu machen,
– um gute Empfehlungen für passendes eigenes weiteres Material zu geben,
– um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen
  zu können (z.B. mit dem Linked-Data-Ansatz), oder auch
– um mit Methoden des Webmonitoring das eigene Material und dessen Entwick-
  lung beobachten und bewerten zu können.
Annotationen sind damit mittelbar in der Medienbranche dafür verantwortlich,
dass zum Beispiel (vgl. ARD, ORF & ZDF, 2008):
– der eigene Absatz oder Verkauf gesteigert werden kann (zum Beispiel von eige-
  ne Bildern oder Videos),
– der eigene Service verbessert werden kann (wenn z.B. Redakteure nicht lange
  auf gewünschte Bilder und Videosequenzen warten müssen),
– redaktions- bzw. anstaltsübergreifende Recherchen möglich sind,
– Entscheidungen darüber getroffen werden können, welche Materialien langfris-
  tig archiviert werden sollen und welche nicht,
– es durch (kreative) Recherche und Wiederverwendung von Materialien zu Ein-
  sparungen bei der Produktion kommt und
– das kulturelle Erbe gesichert wird (v.a. im Falle der öffentlichen Rundfunks).

Qualität von Annotation
Wie lässt sich nun genau die Qualität von Annotationen beschreiben?
Annotationen sollten ganz allgemein (vgl. Schön, Kurz u.a., 2011, S. 30) wesentli-
che Inhalte und Konzepte erfassen, detailliert sein, nicht (zu) allgemein sein und
eine Ressource möglichst genau und eindeutig beschreiben.




                                                                                                 15
Qualität von Annotationen und ihre Rolle für die Medienbranche


Die Qualität der Annotation lässt sich dann u.a. durch eine hohe Übereinstimmung
der Annotation durch mehrere Expertinnen bestimmen, aber auch durch eindeuti -
ge Zuordnungen der Annotationen auf bestimmte Ressourcen. Es geht also ab-
strakt um eine möglichst hohe Konsistenz, also Stimmigkeit der Annotation (und
Ressource). Darüberhinaus kann bzw. muss sich die Qualität von Annotationen
auch häufig in der Nutzung, z.B. für die Recherche von Ressourcen, beweisen, so
dass auf einmal auch Nutzer/innen über die Brauchbarkeit der verwendeten An-
notationen mitentscheiden. Diese Qualitätsbeschreibungen beinhalten so auch
einen Ansatz, wie die Qualität geprüft und gesichert werden kann.
Schließlich kann es wichtig sein, dass auch die Annotationen im hohen Maße ver-
trauenswürdig sind. Sofern man davon ausgeht, dass die Ressourcen von Profis,
z.B. Archivaren annotiert wurden, kann man Vertrauenswürdigkeit ohne Weiteres
voraussetzen. Problematisch und weniger selbstverständlich ist dies jedoch bei
Daten die von externen Quellen hinzugezogen werden (z.B. Informationen aus der
Wikipedia genutzt werden). Dies trifft insbesondere für den Linked-Data-Ansatz
zu, wenn Daten oder Annotationen von Nutzer/innen miteinbezogen werden. Ver-
trauenswürdigkeit (engl. „trust“) ist dabei nicht notwendigerweise ein Garant da-
für, dass etwas fehlerfrei ist, sollte aber auf möglichst korrekte Annotationen füh-
ren lassen (vgl. Ceolin u.a., 2010; Ceolin u.a., 2012).

Kriterien nach Annotationstyp
Betrachtet man die unterschiedlichen Typen von Annotationen zeigt sich, dass
hier jeweils unterschiedliche Aspekte auf ihre Qualität hinweisen. Folgende Tabel-
le zeigt dies exemplarisch an den bereits vorgestellten Annotationstypen.
  Klassifikation                Vollständigkeit: Wurden bei allen möglichen Klassen gewählt?
                                Genauigkeit/Präzision/Granularität: Wurde auf möglichst „tiefen“ Abstufun -
                                gen geachtet?
                                Korrektheit: Wurden richtige Klassen gewählt?
  Beschreibung des Inhalts      Relevanz: Wurden relevante Inhalte beschrieben?
                                Korrektheit: Wurden Inhalte richtig beschrieben?
  Metadaten                     Vollständigkeit: Sind alle Metadaten vorhanden?
                                Genauigkeit: Wie genau sind diese erfasst?
                                Korrektheit: Wurden die Metadaten exakt erfasst?
  Kommentare                    Relevanz: Wurden relevante Kommentare abgegeben?
                                Korrektheit: Sind die Kommentare zutrefend?

                                                         Tabelle 1: Annotationstypen und Qualitätskriterien

Die Übersicht zeigt, dass unter Umständen unterschiedliche Kriterien herangezo-
gen werden müssen um die Qualität von Annotationen zu bewerten.




16
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



 DER PROZESS DER ANNOTATION UND ANSATZMÖGLICHKEITEN DER
 QUALITÄTSSICHERUNG


Der Prozess der Annotation: Beteiligte und Rahmenbedingungen
Um ein besseres Bild davon zu erhalten, wo Qualitätssicherungsmaßnahmen an-
greifen können, müssen sich Prozesse der Annotation genauer betrachtet werden.
In Abbildung 3 werden dazu einige wesentliche Rahmenbedingungen und Betei-
ligte dargestellt und im folgenden skizziert:




       Abbildung 3: Annotationsbeteiligte und -rahmenbedingungen für Qualitätssicherungsmaßnahmen

Werden Medienressourcen, z.B. Bilder oder Videos in einem Medienunternehmen
annotiert, sind folgende Beteiligte und Rahmenbedingungen zu nennen:
   A) Zunächst gibt es im Unternehmen Konventionen zur Annotation, z.B. wer-
      den bestimmte Metadaten verwendet oder Taxonomien, auch unterneh-
      menseigene Entwicklungen. Auch gibt es Routinen und Prozesse, auf wel-
      che Weise Ressourcen im Unternehmen gespeichert, erfasst und annotiert
      werden, z.B. Zuständigkeiten, auch ausgewiesene Qualitätssicherungs-
      strategien (z.B. doppelte Annotation) können hier darunter fallen.
   B) Dann sind die Systeme, in denen die Ressourcen gespeichert und/oder be-
      schrieben werden und ihre Möglichkeiten und Vorgaben der Annotation
      wesentlich. Einige Systeme beinhalten z.B. Empfehlungssysteme für Anno-
      tationen oder unterstützen die Qualitätssicherung der Annotation durch
      entsprechende Kennzeichnung von Materialien.
   C) Die Ressource selbst ist ebenso wichtig im Prozess der Annotation: Um
      welches Medienprodukt handelt es sich? Welche Bedeutung hat es im Un-
      ternehmen? Welchen Zweck erfüllt es, soll es erfüllen? Zur Annotation

                                                                                               17
Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung


         von Videos gehört beispielsweise auch die sinnvolle Segmentierung der
         Videos in kürzere Abschnitte (z.B. mit der Keyframe-Methode oder einer
         automatischen Szenenerkennung).
     D) Der Ersteller einer Ressource ist in der Regel derjenige, der erste grobe
         Annotationen vornimmt oder überträgt, z.B. die Metadaten zu den Auf-
         nahmen (Bildgröße, Videolänge, Belichtungseinstellungen etc.). Auch wer-
         den zum Beispiel Videos mit groben Daten wie Aufnahmedatum, Ort,
         Zweck, Beteiligte versehen.
     E) In Medienfirmen gibt es in aller Regel (semi-) professionelle Archivare.
         Diese sind entsprechend ausgebildet und wurden in der Regel unterneh-
         mensintern geschult.
     F) Nutzer/innen von Ressourcen sind in zweierlei Hinsicht interessant: Zum
         einen sorgen sie direkt (z.B. durch Tagging) und indirekt (z.B. durch ihr
         Such- und Nutzungsverhalten) für eine Erweiterung der Annotationen ei-
         ner Ressource. Gleichzeitig können ihre Erwartungen, Erfahrungen und
         Verbesserungsvorschläge sowie ihr Verhalten auch bei der Qualitäts-
         sicherung eingesetzt werden.
Diese Darstellung ist allgemein und abstrakt – je nach spezifischem Anwendungs-
fall und Annotationsform gibt es hier Besonderheiten, auf die im Folgenden in den
Beispielen auch eingegangen wird. So können beispielsweise Videos auch kollabo-
rativ annotiert werden (u.a. Hofmann u.a., 2009).

Ursache von Qualitätsmängeln
Bei der Annotation können eine Reihe von Fehler auftreten, dabei sind unter an-
derem die eigentümliche (fehlerhafte) Interpretation von Kategorien, Antwort-
tendenzen, aber auch Faktoren wie Motivation oder Ermüdungserscheinungen zu
nennen (Staab, Maedche & Handschuh, 2001). Darüberhinaus können auch die
verwendeten Klassifikationsschema ungeeignet oder inkonsistent sein.
Die skizzierten Einflussfaktoren und auch ihre Wechselwirkungen sind jedoch
auch deshalb nicht eindeutig zu benennen, „da sie von den jeweiligen Merkmalen
der Annotierer, des Schemas und der Objekte abhängen (vgl. auch Spiegelman,
Terwilliger, & Fearing, 1953). Erschwerend kommt hinzu, daß Untersuchungen zu
solchen Einflußfaktoren und ihrer Wirkung auf die Reliabilität (Anm. der Heraus-
geber: „Übereinstimmung“) manueller Annotationen bislang kaum existieren. Ihre
Kontrolle und da- mit eine systematische Qualitätssicherung von Annotationen ist
somit nur eingeschränkt möglich. Anstrengungen in diesem Bereich müssen sich
demnach im wesentlichen auf den Nachweis einer ausreichenden Annotations-
qualität beschränken“ (Bayerl, 2003)




18
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



Qualitätssicherung
Versuche und Ansätze, qualitativ hochwertige Dienstleitungen und Produkte zu
erhalten und dies zu „sichern“ sind Verfahren der Qualitätssicherung und damit
allgemeiner dem Qualitätsmanagement zu zuordnen. Maßnahmen zur Sicherung
der Qualität von Annotationen können dabei ganz unterschiedlich gestaltet wer-
den.
Allgemein gibt es in unternehmerischen Kontext mehrere Verfahren und Vor-
schläge, wie Qualitätssicherung betrieben werden kann. Weit verbreitet sind hier
die entsprechenden ISO-9000-Normen (Fuchs, 2006, 58f).

Qualitätsmanagement nach ISO-9000
Seit 1985 beschreiben diese Normen der „International Organization for Standar-
dization“ (ISO) Formen, Vorgehen und Methoden des Qualitätsmanagements. Die
vier Hauptabschnitte zu Qualitätsmanagement (ISO 9001:2000-12) tragen die Ti-
tel Verantwortung der Leitung, Management von Ressourcen, Produktrealisie-
rung, sowie Messung, Analyse und Verbesserung und werden in einem Modell ei-
nes prozessorientierten Qualitätsmanagementsystems beschrieben. Zwei Regel-
kreise des prozessorientierten Qualitätsmanagementsystems verbinden diese vier
Bereiche (vgl. Becker, 2005, S. 35; Fuchs, 2006, 59). Der erste wird durch die Be-
wertung des Managements als kontinuierliche Verbesserung geschlossen, der
zweite bezieht Kundenanforderungen, die Umsetzung der Produkte (bzw. Dienst-
leistungen) sowie Kundenzufriedenheitsmessungen ein (vgl. Abbildung 4).




 Abbildung 4: DIN EN ISO 9001:2000-12 – Modell eines prozessorientierten Qualitätsmanagementsystems
                            Quelle: nach http://www.tqm.com/methoden/din-en-iso-9001 (10.11.2011)




                                                                                               19
Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung


Aus diesem Modell des Qualitätsmanagements lässt sich ableiten, dass „interes-
sierte Parteien“ eine wichtige Rolle im Qualitätsmanagement spielen. Im Falle der
Annotationen sind das Nutzer/innen der Annotationen: Welche Forderungen an
gute Annotationen haben sie? Wie zufrieden sind sie mit den Annotationen? Wie
hier ständig Verbesserungen erreicht werden können, ist allgemein die Aufgabe
des Qualitätsmanagements.

Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche
Für Unternehmen in der Medienbranche gibt es eine Reihe von konkreten ISO-
Normen die den Umgang mit Medienressourcen beschreiben. Immer wieder tau-
chen hier auch Aspekte der Annotation auf. Beispiele dafür sind:
– ISO 6199 zu Mikrofilme, „information required to facilitate identification of the
  microfilm“15,
– ISO 15930-1 bis -8: Eigenschaften von pdf-Dateien als Druckvorlagen 16, z.B. zur
  Vollständigkeit der Angaben für den Druck und
– ISO/IEC 18019: Guidelines for the design and preparation of software user do-
  cumentation17.

Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen
Im Folgenden betrachten wir, wie Qualitätssicherungsstrategien im Bezug auf die
Qualität von Annotationen aussehen können. Diese lassen sich zunächst aus dem
vorgestellten Annotationsprozessen sowie dem Qualitätsmanagement ableiten.
Das „Produkt“ sind in unserem Fall annotierte Assets bzw. Medienressourcen. Fol-
gende Matrix zeigt unterschiedliche Ansatzmöglichkeiten und Fragestellungen,
die man sich im Rahmen der Qualitätssicherung der Annotation stellen kann (Ta-
belle 2).
Merkmale, nach denen hier jeweils entsprechende Lösungen oder Verfahren ent-
wickelt werden, sollten sich an den Kriterien für gute Annotationen, also der Qua-
lität von Annotationen richten. Gleichzeitig hat die Qualitätssicherung bzw. das
damit verbundene Qualitätsmanagement auch weitere wichtige Kriterien für die
Auswahl von Verfahren und relevanten Entscheidungen, diese sind beispielsweise
Effektivität, Effizienz, die Höhe des Ressourceneinsatz bzw. -aufwand,
Aufwands-/Ertrag-Relation und verschiedene eher betriebswirtschaftliche Aspek-
te (vgl. „Management der Mittel“ in Abbildung 4, S. 19).




15
     http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?
     csnumber=27582 (2011-11-09)
16
     http://de.wikipedia.org/wiki/PDF/X (2012-05-03)
17
     http://www.usabilitynet.org/tools/r_international.htm (2012-07-23)


20
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


                                                                                  Verbesserung des
                            Prozess der                                           Qualitätsmanage-
                                                         Annotation
                            Annotation                                            ment rund um das
                                                                                     Annotieren
                      Wie lässt sich der Pro-
                                                   Wie lässt sich die Anno-     Wie lässt sich das Quali-
Annotationskon-       zess der Annotation
                                                   tation durch Annotati-       tätsmanagement durch
                      durch Annotationskon-
 ventionen und                                     onskonventionen und          Annotationskonventio-
                      ventionen und Prozess-
   -prozesse                                       Prozessgestaltungen ver-     nen und -prozesse ver-
                      gestaltungen verbes-
                                                   bessern?                     bessern?
                      sern?
                      Wie lässt sich der Pro-                                   Wie lässt sich das Quali-
                                                   Wie lässt sich die Anno-
  Annotations-        zess der Annotation                                       tätsmanagement durch
                                                   tation durch Annotati-
   systeme            durch Annotationssyste-                                   Annotationssysteme ver-
                                                   onssysteme verbessern?
                      me verbessern?                                            bessern?
                      Wie lässt sich der Pro-                                   Wie lässt sich das Quali-
                                                   Wie lässt sich die Anno-
                      zess der Annotation im                                    tätsmanagement der An-
 Medienasset/                                      tation im Hinblick auf die
                      Hinblick auf die zu anno-                                 notationen im Hinblick
  Ressource           tierende Ressource ver-
                                                   zu annotierende Res-
                                                                                auf die Ressourcen ver-
                                                   source verbessern?
                      bessern?                                                  bessern?
                      Wie lässt sich der Pro-                                   Wie lässt sich das Quali-
                                                   Wie lässt sich die Anno-
                      zess der Annotation im                                    tätsmanagement der An-
 Ersteller einer                                   tation im Hinblick auf die
                      Hinblick auf die Ersteller                                notationen im Hinblick
   Ressource                                       Ersteller von Ressourcen
                      von Ressourcen verbes-                                    auf die Ersteller von Res-
                                                   verbessern?
                      sern?                                                     sourcen verbessern?
                                                                                Wie lässt sich das Quali-
                      Wie lässt sich der Pro-      Wie lässt sich die Anno-
                                                                                tätsmanagement der An-
   Annotator          zess der Annotation im       tation im Hinblick auf die
                                                                                notationen im Hinblick
  ggf. Archivar       Hinblick auf die Annota-     Annotatoren verbess-
                                                                                auf die Annotatoren ver-
                      toren verbessern?            ern?
                                                                                bessern?
                      Wie lässt sich der Pro-                                   Wie lässt sich das Quali-
                                                   Wie lässt sich die Anno-
                      zess der Annotation im                                    tätsmanagement der An-
  Nutzer/innen                                     tation im Hinblick auf die
                      Hinblick auf die Nutzer/-                                 notationen im Hinblick
 der Ressourcen                                    Nutzer/innen der Res-
                      innen der Ressourcen                                      auf die Nutzer/innen der
                                                   sourcen verbessern?
                      verbessern?                                               Ressourcen verbessern?

Tabelle 2: Ansatzmöglichkeiten und Fragestellungen für Qualitätssicherung bei der Annotation (Beispiele)




                                                                                                        21
Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung



„Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick
Für die nun folgenden Übersicht von Qualitätssicherungsmaßnahmen haben wir
zum einen (eher) „soziale“ Maßnahmen zusammengestellt um in einem weiteren
Kapitel „technische“ Maßnahmen vorzustellen. Die folgende Übersicht zeigt die
einzelnen Maßnahmen, die in der Literatur oder in Gesprächen, oft nur exempla-
risch, ausgeführt anhand der oben eingeführten wichtigen Aspekten der Anntota-
tion (vgl. Tabelle 3).
                                     „soziale“                                „technische“
                         Qualitätssicherungsmaßnahmen                Qualitätssicherunsmaßnahmen
                      (a) Entwicklung von Klassifikationsschemas
                          und Regelwerken                        (a) Unterstützung bei der Erstellung und
   Annotations-
                      (b) Überprüfung des Klassifikationsschemas     beim Management von Kategoriensche-
   konventionen           auf Konsistenz                             mas (Taxonomien)
   und -prozesse      (c) Doppelte und mehrfache Annotation

                                                                 (b) Steuerung des Annotationsprozess
                                                                 (c) Vergleich der Annotationen und Bereini-
     Annotations-                                                    gung bei Mehrfach-Annotation
                      [siehe rechts]
      systeme                                                    (d) Qualitätsprüfung mit Hilfe automati-
                                                                     scher Annotationen
                                                                 (e) Monitoring des Annotationsprozess
   Medienasset/                                                  (f) Qualitätssicherung mit und von (semi-)
                      [keine Vorschläge vorhanden]
    Ressource                                                        automatischen Annotationen
   Ersteller einer
                      [keine Vorschläge vorhanden]               [keine Vorschläge vorhanden]
     Ressource
                      (d) Schulung von Kategorienschemas und
                          Annotationstrainings
                      (e) Überprüfung der Anwendung von Klassi-
      Annotator           fikationsschemas                       (g) Einsatz von Empfehlungssystemen für
     ggf. Archivar    (f) Entwicklung und Einsatz eines Prüfkor-     Annotationsvorschläge
                          pus für Annotatoren
                      (g) Zusammenarbeit von Archivaren und
                          Kunden/Nutzern
                                                               (h) Visualisierung der Vertrauenswürdigkeit
                      (h) Erhebung der Kunden/Nutzerbedürfnis-     von Annotationen und Tags
   Nutzer/innen
                           se und -zufriedenheit               (i) Unkonventionelle Lösung: Spielbasierte
  der Ressourcen      (i) Erhebung des Nutzerverhaltens            Ansätze zur Qualitätsprüfung
                                                               (j) Qualitätssicherung durch Nutzer/innen

     Tabelle 3: Übersicht über „soziale“ und „technische“ Qualitätssicherungsmaßnahmen bei der Annotation

Im Vergleich mit der Übersicht in Tabelle 2 (s. S. 21) fällt auf, dass zum Aspekt Me-
dienasset/Ressource bzw. Ersteller einer Ressource keine spezifischen Qualitäts-
sicherungsmaßnahmen recherchierbar waren. Es ist anzunehmen, dass es hier je-
doch in der Archivpraxis Konventionen und Prozesse gibt, die hier im Bezug auf
die (spätere) Annotation von Belang sind.




22
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



 SOZIALE PROZESSE DER QUALITÄTSSICHERUNG

In diesem zweiten Abschnitt beschreiben wir Qualitätssicherungsaktivitäten, die
überwiegend „soziale“ Aspekte, also Aspekte im Bezug auf die beteiligten Perso-
nen betreffen, in Abgrenzung zu den anschließend behandelten technischen Sys-
temen und Lösungen. Natürlich ist diese Unterteilung nicht immer trennscharf, da
ja Nutzer/innen die Systeme bedienen und dass die Systeme manchmal auch nur
soziale Prozesse unterstützen und steuern. Dennoch zeigt diese Betonung von so-
zialen Prozessen, dass zur Qualitätssicherung von Annotationen nicht nur „techni-
sche Lösungen“ führen, sondern dass diese eben oft nur unterstützen.

(a) Entwicklung von Klassifikationsschemas und Regelwerken
Um die die Qualität von Annotationen zu erhöhen bzw. zu sichern, werden in der
Medienbranche Klassifikationsschema entwickelt oder eingesetzt. Die Materialien
können dann Kategorien und Unterkategorien zugeordnet werden, welche häufig
auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten.
Solche Schemas werden auch als Taxonomien bezeichnet. Ein Beispiel für eine Ta-
xonomie aus der Biologie zeigt die folgende Tabelle 4.
             Deutsch                    Latein bzw. Altgriechisch                          Beispiel
 Reich                             Regnum                                    Vielzellige Tiere
 Abteilung / Stamm                 Divisio / Phylum                          Chordatiere
 Unterstamm                        Subphylum                                 Wirbeltiere
 Klasse                            Classis                                   Säugetiere
 Ordnung                           Ordo                                      Raubtiere
 Überfamilie                       Superfamilia                              Katzenartige
 Familie                           Familia                                   Katzen
 Unterfamilie                      Subfamilia                                Kleinkatzen
 Gattung                           Genus                                     Altwelt-Wildkatzen
 Art                               Species                                   Wildkatze
 Unterart                          Subspecies                                Hauskatze

                                             Tabelle 4: Beispiel für eine Taxonomie – Auszüge aus der Biologie
                                                  Quelle: http://de.wikipedia.org/wiki/Taxonomie (9.9.2011)

In Unternehmen und Medienarchiven werden dazu häufig eigene Taxonomien für
die eigene Bedürfnisse der Annotation und der Nutzung der Daten entwickelt. Die
Entwicklung eines Klassifikationsschemas wird als eine wesentliche Maßnahme
zur Qualitätssicherung der Annotation betrachtet.
Das „Regelwerk Mediendokumentation“ von ARD, ORF und ZDF (2008) ist ein gu-
tes Beispiel für ein branchenweites Regelwerk der Beschreibung von Medienin-
halten, in diesem Falle von Fernsehproduktionen. Immer wieder überarbeitet und
so konzipiert, dass Archive auch auf Entwicklungen in der Fernsehproduktion


                                                                                                          23
Soziale Prozesse der Qualitätssicherung


(neue Formate, Genre, Technologien) eingehen können werden hier Elemente der
Formalbeschreibung sowie die Bestandteile der Inhaltswiedergabe beschrieben
bzw. festgelegt. Durch die Verwendung des Regelwerks werden auch archivüber-
greifende Recherchen möglich. Das Regelwerk wird auch in vielen privaten Fern-
sehproduktionsstätten eingesetzt.
Ergänzend werden häufig auch Metadatenformate verwendet. Metadaten eines
Buches sind beispielsweise die Autorennamen, die ISBN, der Verlag, der Erschei-
nungsort. Metadaten sind im Gegensatz zu Webseiten meist strukturierte Daten
und daher vom Computer weiterverwendbar. Im Internet bzw. der Informatik
werden solche „Daten über Daten“ als Metadaten bezeichnet, die jedoch ganz un-
terschiedliches beinhalten. Um einen geregelten Austausch von Daten in einem
Anwendungsbereich zu verbessern oder zu erleichtern, hat man sich in vielen Be-
reichen, auf genau beschriebene Metadatenformate geeinigt. Treiber dieser Be-
strebungen sind vor allem Archive, welche verbunden mit der Digitalisierung ih-
rer Bestände auch den Austausch ihrer Daten über Publikationen ermöglichen
und vereinfachen wollten (z. B. mit Dublin Core). In der Nachrichtenindustrie
macht vor allem der Zeitdruck einen reibungslosen Austausch von Nachrichten
den Einsatz von Metadatenformaten wie NewsML, der bereits erwähnten IPTC
NewCodes und EXIF erforderlich. Beim Web 2.0 und den sozialen Netzwerken
steht die Vernetzung der Community im Vordergrund (z. B. FOAF, SIOC). Sche-
ma.org18 ist das Ergebnis einer Vereinigung von Suchmaschinen-Herstellern und
verfolgt das Ziel, Schemas für die Auszeichnung von Web-Seiten auf eine solche
Art und Weise bereitzustellen, dass Suchmaschinen den Inhalt besser interpretie-
ren (und durchsuchen) können. Dieser Ansatz fällt unter die Gruppe der „Micro-
data“-Ansätze zur Anreicherung bzw. Auszeichnung von Web-Ressourcen mit se-
mantischen Informationen. Die Open Annotation Collaboration (OAC) Group 19 un-
terstützt die Entwicklung eines Ressourcen-zentrierten Annotationsumfelds für
das Word Wide Web und hat mit den Open Annotation Core Data Model 20 im Mai
2012 ein grundlegendes Schema für die Annotation von Ressourcen vorgestellt.
Eine Befragung der Semantic Web Company, an der sich mehr als 150 Personen
aus 27 Ländern beteiligten, zeigt, dass der Einsatz von unternehmensinternen
Thesauri verbreitet ist (vgl. Abbildung 5): Demnach wird bei rund 86 Prozent der
Befragten eine Taxonomie eingesetzt, bei 39 Prozent sogar schon mehr als 10 Jah-
re lang.




18
     http://schema.org/ (28.08.2012)
19
     http://www.openannotation.org/ (28.08.2012)
20
     http://www.openannotation.org/spec/core/ (28.08.2012)


24
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche




   Abbildung 5: Einsatz von Taxonomien in Unternehmen und seien Dauer. Befragungsergebnisse (N=158)
                                                         Quelle: Kondert, Schandl & Blumauer (2011)


(b) Überprüfung des Klassifikationsschemas auf Konsistenz
Bevor ein Klassifikationsschema übernommen bzw. eingeführt wird sollte es aus-
reichend getestet werden. Sind alle notwendigen Kategorien und Begriffe enthal-
ten? Gibt es Inkonsistenzen? Fehlen Erklärungen? Testweise sollten Dokumente
von mehreren gleichzeitig annotiert werden und diese Annotationen verglichen
werden: Abweichungen können auch an den unzureichenden Erläuterungen und
Definitionen des Klassifikationsschemas liegen.

(c) Doppelte und mehrfache Annotation
Eine Möglichkeit, die Qualität der Annotationen zu sichern, besteht darin, die An-
notationen doppelt oder mehrfach durchführen zu lassen – durch die gleichen
Personen oder durch weitere Personen. Auch können zusätzlich (für den Ver-
gleich) auch automatische Annotationen verwendet werden und Übereinstim-
mungen bzw. Abweichungen mit den Annotationen kontrolliert werden.

(d) Schulung von Kategorienschemas und Annotationstraining
Nun genügt es natürlich nicht, ein Kategorienschema zu entwickeln: Jede/r, der
Annotationen damit vornimmt muss darin entsprechend geschult sein um mög-
lichst gute Annotationen zu liefern. Eine Maßnahme der Qualitätssicherung sind
also Schulungen und Annotationstrainings.
Diese werden über mehrere Wochen hinweg, häufig in Zusammenarbeit mit Ex-
perten durchgeführt, indem Dokumente gemeinsam oder auch einzeln annotiert
werden. Während des Trainings können so auch aufkommende Probleme geklärt
werden (vgl. Bayerl, 2003).

(e) Überprüfung der Anwendung von Klassifikationsschemas
Die Anwendung des Klassifikationsschemas kann dabei in dreifacher Weise über-
prüft werden (Bayerl, 2003): „Aussagen zur Qualität manueller Annotationen
müssen getroffen werden hinsichtlich:


                                                                                               25
Soziale Prozesse der Qualitätssicherung


– Anwendung des Schemas im Sinne des vorgegebenen Standards
– Übereinstimmung in der Anwendung des Schemas zwischen Annotierern (inter-
  individuelle Konsistenz)
– Konsistenz eines Annotierers über die Zeit (intraindividuelle Konsistenz)“
So lässt sich unter anderem bewerten, ob eine „eindeutige, konsistente Zuordnung
von Objekten in die Klassen des Schemas möglich ist“ (Bayerl, 2003). Dazu emp-
fiehlt Bayerl (2003) die Verwendung eines Klassifikationsschemas durch ver-
schiedene Personen für jeweils identische Objekte. „Erreichen diese eine überein-
stimmende Zuordnung der Objekte kann davon ausgegangen werden, daß das
Schema seinen Zweck der eindeutigen, wiederholbaren Klassifizierbarkeit von
Objekten erfüllt (wobei hiermit allerdings noch keine Aussage über die Sinnhaftig-
keit der Kategorien und Zuordnungen, d. h. die Validität des Schemas getroffen
ist)“.
Zusätzlich kann mit einem solchen Vergleich der Übereinstimmung mehrerer An-
notatoren deren interindividuelle Konsistenz geprüft werden. Von Zeit zu Zeit er-
scheint es auch sinnvoll, die Übereinstimmung der Annotationen bei gleichen An-
notatoren zu überprüfen.
Bei diesen Überprüfungen wird in aller Regel die Übereinstimmung (Reliabilität)
als ungewichtetes Kappa (nach Cohen, 1960) berechnet. Liegt der Wert von Kappa
über 0,75 wird dies in aller Regel als ausreichend betrachtet (Landis & Koch,
1977, vgl. Bayerl, 2003). Allerdings ist diese Betrachtung nicht unproblematisch –
so können die Übereinstimmungen auch auf der Verwendung allgemeiner Kon-
zepte und Kategorien beruhen, auch ist dadurch nicht klar, welcher von zwei An-
notatoren besser annotiert.
Auch wenn Kontrollmechanismen wie der Vergleich mit einer automatischen An-
notation oder eine doppelte Annotation mit einem zweiten Annotierer durchge-
führt werden, hängt erwartungsgemäß und auch empirisch bestätigt die Qualität
und die Effektivität der Ergebnisse maßgeblich von den Erfahrungen und Qualifi-
kationen der Annotierer ab (vgl. Crystal u.a., 1999).

(f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren
Für das Training des Kategorienschemas und der Annotation wird die Entwick-
lung eines Prüfkorpus empfohlen. Dazu werden Ressourcen gewählt und von min.
zwei Annotatoren annotiert, und deren Übereinstimmung geprüft. Er kann bei
entsprechender Überprüfung auch den Rang eines „Goldstandards“ erhalten.
Fragen aus dem Goldstandard können wiederum zur Kontrolle und zum Training
von Annotatoren eingesetzt werden, beispielsweise bei der Annotation von Bil-
dern (Sorokin & Forsyth, 2008). Routinierte Annotatoren werden dabei „zwi-
schendurch“ zur Überprüfung und aus Trainingszwecken Elemente des Prüfkor-
pus vorgelegt um dann die Übereinstimmung auszuwerten und auch um Feedback



26
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


zu geben. Oleson u.a. (2011) haben dies beispielsweise zur Qualitätssicherung bei
Annotationen mit Crowdsourcing-Angeboten gemacht.

(g) Zusammenarbeit von Archivaren und Kunden/Nutzern
Beim ORF werden Archivare wochenweise in Fachredaktionen platziert, arbeiten
also unmittelbar und räumlich nahe mit den Kollegen zusammen, um gezielt mit
den Denkweisen und Bedürfnissen der Kunden konfrontiert zu werden.

(h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit
Auch Nutzerbefragungen sind eine Option. Sie dienen nicht nur der Qualitätssi-
cherung der Annotation, die sich ja durch die Nutzer/innen definiert, sondern
kann auch ein Aspekt der Kundenzufriedenheit sein. Hierbei werden Nutzer/in-
nen dazu befragt wie zufrieden sie mit den Rechercheergebnissen sind, wenn sie
beispielsweise folgendes erledigen:
– Suche nach Stock-Images/Videos für einen Bericht.
– Suche nach einem bestimmten Dokument.
– Suche nach allen Beiträgen zu einem Thema.
Es ist dabei ggf. zu überprüfen, wie häufig ist solche Anwendungsfälle überhaupt
sind bzw. welche Bedürfnisse Nutzer/innen überhaupt haben.
Eine weitere Fragestellung ist generell, welche Anforderungen eine Annotation er-
füllen muss. Neben der späterer Suche (Auffindbarkeit) können das z.B. auch Hin-
weise zur bisherigen Verwendung einer Ressource sein. In einem Workshop des
Salzburg NewMediaLab – The Next Generation im Mai 2011 wurde darauf auf-
merksam gemacht, dass es Redakteure, wenn sie beispielsweise eine Landschafts-
aufnahme suchen, nicht unbedingt eine Videosequenz erhalten wollen, die schon
sehr oft von Kollegen gefunden bzw. ausgewählt wurde.

(i) Erhebung des Nutzerverhaltens
Konkret auf die Annotation bezogen sollte auch der Frage nachgegangen werden,
inwiefern sich das Beschlagwortungssystem der Experten mit dem des End-An-
wenders deckt und zusammenpasst, sofern es nicht dieselben Personen sind. Ne-
ben Befragungen können auch Log-Dateien hier zur Auswertung hinzugezogen
werden (Wonach suchen Nutzer/innen? Was finden sie/ was finden sie nicht?).




                                                                                               27
Soziale Prozesse der Qualitätssicherung




28
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



     TECHNOLOGISCHE UNTERSTÜTZUNG DER QUALITÄTSSICHERUNG

Im diesem Abschnitt wird gezeigt, wie Technologien die Qualitätssicherung von
der Annotationsprozesse unterstützen. Dabei greifen wir einige Aspekte auf, die
bereits im vorherigen Abschnitt konzeptionell beschrieben wurden und illustrie-
ren hier auch mit Hilfe von konkreten Screenshots von Produkten, wie sie unter-
stützt werden.

(a) Unterstützung bei der Erstellung und beim Management von Kategori-
enschemas (Taxonomien)
Bei der Erstellung eines unternehmensinternen Kategorienschema bzw einer Ta-
xonomie helfen Werkzeuge, die diesen Prozess gezielt unterstützen. Die Semantic
Web Company ist Partner des Salzburg NewMediaLab und bietet mit ihrem Pro-
dukt „PoolParty21“ ein entsprechendes Werkzeug an. Hier können übersichtlich
Taxonomien entwickelt, erstellt und verwaltet werden (vgl. Abbildung 6).




                                                             Abbildung 6: Taxonomieerstellung mit Poolparty.
                            Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/ (7.10.2012)

Den technischen Aufbau von Poolparty und seinem Thesauri-Management wird in
folgender Abbildung 7 beschrieben.




21
     http://poolparty.biz/ (28.08.2012)


                                                                                                        29
Technologische Unterstützung der Qualitätssicherung




                                                         Abbildung 7: Thesaurimanagement mit Poolparty.
                        Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/(10.10.2012)


(b) Steuerung des Annotationsprozess
Das Management der Annotationsprozesse, beispielsweise die Zahl der Annotato-
ren pro Ressource oder ob Annotatoren auch die Annotation ablehnen können,
wird ebenfalls durch Technologien unterstützt und liefern somit einen Beitrag zur
Qualitätssicherung. Beim Werkzeug „Teamware“, mit dem kollaborativ annotiert
werden kann schaut das entsprechende Interface folgendermaßen aus (siehe Ab-
bildung 8).




                                                      Abbildung 8: Annotationsmanagement mit Teamware.
                                                         Quelle: http://gate.ac.uk/teamware/ (10.11.2011)




30
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


Wie solche Prozesse optimal gestaltet werden können zeigt nicht nur die Erfah-
rung sondern ist auch Gegenstand empirischer Untersuchungen. So stellen Vond-
rick u.a. (2012) fest, dass es beim Annotieren von Videos sinnvoll ist (weil effizi-
enter) wenn in jedem Frame nur ein Ding markiert und beschrieben wird.

(c) Vergleich der Annotationen und Bereinigung bei Mehrfach-Annotation
Es wurde bereits beschrieben, dass es der Qualitätssicherung dient, wenn man die
Annotationen unterschiedlicher Personen derselben Ressource miteinander ver-
gleichen kann. Beim Werkzeug „Teamware“ werden entsprechende Kalkulationen
von Kappa automatisch durchgeführt und können Fehlermeldungen an das Anno-
tations-Management verschicken (siehe Abbildung 9).




                                                    Abbildung 9: Annotationsvegleich bei Teamware.
                                                   Quelle: http://gate.ac.uk/teamware/ (10.11.2011)


(d) Qualitätsprüfung mit Hilfe automatischer Annotationen
Automatische Annotationen können auch zum Einsatz kommen, um die Annota-
tionen eines einzelnen Annotators zu prüfen. Sehr häufig werden Ressourcen
nämlich nicht von mehreren Personen annotiert, so dass hier Vergleiche möglich
wären. Lässt man eine Ressource – sofern es eine geeignete automatische Annota-
tionsunterstützung gibt – automatisch annotiert, kann man davon ausgehen, dass
Übereinstimmungen der automatischen Annotation und des Annotators für „kor-
rekte“ Annotationen sprechen. Abweichungen können jedoch als mögliche Signale
für qualitative Mängel betrachtet werden. Auf alle Fälle ist ein solche Vorgehen,
dass die Abweichungen von den automatischen Vorschlägen prüft effektiver als
die kompletten Annotationen „per Hand“ zu überprüfen (siehe Huang u.a., 2008).
Ein solches Verfahren, dass von Safadi u.a. (2012) vorgestellt wird wird als „Active
Cleaning“ bezeichnet wird. Hierbei werden, sofern – z.B. auch automatisch gene-
rierte – Annotationen vorhanden sind, diejenigen gewählt, die die höchste Qualität
aufweisen. Ihnen gelingt auch an einem Testdatensatz der Nachweis, dass nach ei-
ner solchen Reinigung auch tatsächlich zur Verbesserung führt. Ähnlich bereini-


                                                                                               31
Technologische Unterstützung der Qualitätssicherung


gen Vittayakorn & Hays (2011) so Annotationen von Bildern, die durch Crowd-
sourcing entstanden sind.

(e) Monitoring des Annotationsprozess
Qualitätssicherungsmaßnahmen sind auch solche, die aktuelle Prozesse in Form
von Kennzahlen monitoren und ausweisen. Auch hier bieten Werkzeuge Unter-
stützung, zur Illustration ist hier ein Screenshot von Teamware eingefügt (siehe
Abbildung 10).




                                                                Abbildung 10: Monitoring bei Teamware.
                                                      Quelle: http://gate.ac.uk/teamware/ (10.11.2011)




(f) Qualitätssicherung mit und von (semi-) automatischen Annotationen
Automatische Annotationen oder auch Empfehlungen für Annotationen können
allgemein als Unterstützung von Annotationsprozessen betrachtet werden. Es gibt
eine Reihe von Automatisierungstechniken, die bei der Annotation zum Einsatz
kommen, die auch als Qualitätssicherungsmaßnahmen betrachtet werden können.
Semi-automatische Annotationen sind dabei Verfahren, die manuell überprüft
werden, es gibt jedoch auch Systeme, die allein auf automatische Verfahren ange-
wiesen sind.
Bei der Beschreibung von Automatisierungstechniken könnte etwa unterschieden
werden: Sicherstellung von einheitlichen Schreibweisen, Erleichterung bei der
Auswahl von Vokabular (Vorschlag/Navigation), Hilfestellung bei der Beschrei-
bung des Inhalts (z.B. Hintergrundinformation zu Themen wie den Teilnehmern
bei Events), die Auflösung von Mehrdeutigkeiten (Disambiguierung), Bild-Extrak-
tion, Text-Transkriptionen, Erleichterung beim Hinzufügen von neuen Kategorien
zu bereits annotierten Assets, Hilfestellung nach der Annotation (z.B. Anreiche-
rung mit Überkategorien).



32
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


Diese automatisierten Annotationen bzw. Vorschläge dafür können dabei auch aus
von Webmaterialien oder simplen Nutzerkommentaren generiert werden. Yama-
moto und andere (2008) versuchen so Kommentare in Bulletin Boards und We-
blogs zu Videos auszuwerten, um daraus Annotationen zu entwickeln. Zhang u.a.
(2008) versuchen ähnliches mit Vlogs (also Video-Weblogs). Belhajjame u.a.
(2006) untersuchen, inwieweit Webservices automatisch annotiert werden kön-
nen. Sie stellen fest, dass auch rudimentäre existierende Informationen als Anno-
tationsvorschläge die (professionelle) Annotation erleichtern können. Andere
Forschungsgruppen haben ähnliche Untersuchungen erstellt, dabei variieren Da-
tenquellen und Auswertungsverfahren.
In einem bereits erschienenen Band der Linked Media Lab Reports (Schön und an -
dere, 2011) wurden Verfahren zusammengetragen, mit denen wiederum die Qua-
lität von Annotationsvorschlägen überprüft werden kann. Da sich diese auf „auto-
matische“ Annotationen bzw. Annotationsvorschläge beziehen, lassen sich diese
Verfahren – wie im folgenden geschehen – leicht auf die Qualitätsüberprüfung von
automatischen Annotationsverfahren übertragen:
Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol-
genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe-
rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von
Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in-
nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten:
    (1) Befragung von Experten zur Qualität der empfohlenen Annotationen,
    (2) direkter Vergleich der Annotationsempfehlungen durch Befragung von
        Experten,
    (3) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An-
        satz),
    (4) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations-
        vorschlägen) sowie
    (5) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor-
        schlägen.
Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an
der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig
unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis-
tierende Datensätze genutzt werden können.
   (6) Vergleich der Annotationen von Experten und mit den Annotationen, die
       das System vorschlagen würde, sowie
   (7) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten.
Die Verfahren werden detailliert bei Schön und andere (2011) beschrieben.



                                                                                               33
Technologische Unterstützung der Qualitätssicherung



(g) Einsatz von Empfehlungssystemen für Annotationsvorschläge
Empfehlungssysteme für Annotationen werden immer häufiger eingesetzt, um
den Prozess der Annotation zu vereinfachen und auch um sie zu verbessern 22.
Empfehlungssysteme für Annotationen beruhen dabei auf ganz unterschiedlichen
Quellen und Verfahren (vgl. Schön, Kurz u.a., 2011). Wie allgemein bei Empfeh-
lungssystemen gibt es auch bei den Empfehlungen von Annotationen zwei Verfah-
ren: das inhaltsbasierte Filtern und das kollaborative Filtern. Werden Empfehlun-
gen für Annotationen gegeben, wird in der Regel das inhaltsbasierte Filtern einge-
setzt, dabei beruhen die Empfehlungen auf den Eigenschaften der Elemente, die
empfohlen werden. Hier kommen häufig Verfahren der Datenextraktion zum Ein-
satz, oft wird dabei auch auf Thesauri zurückgegriffen. Es gibt aber auch Ansätze
bei Empfehlungen von Annotationen, bei denen kollaboratives Filtern (engl. „Col-
laborative Filtering“) eingesetzt wird: z.B. werden bei Delicious23 häufig verwen-
dete Tags vorgeschlagen. Auch gibt es vielfach personalisierte Vorschläge („be-
reits verwendete Tags“).
Es gibt mehrere bereits im letzten Absatz skizzierte Verfahren, die grundsätzlich
zur Verfügung stehen, um die Qualität von Empfehlungen für Annotationen und
entsprechender Systeme zu bewerten (siehe Schön, Kurz u.a. 2011). Diese Strate-
gien der Evaluation von Annotationsempfehlungen sind jedoch bisher teils noch
gar nie, oder nur selten, eingesetzt worden.
Eine interessante Maßnahme zur Qualitätssicherung von Annotationen bzw. zur
Qualitätsverbesserung der Annotationsempfehlungen möchten wir exemplarisch
vorstellen: Empfehlungsalgorithmen für Annotationen können nämlich – ganz sel-
ten – auch durch den Nutzer beeinflusst werden. Mit der ALOE-Plattform wird
derzeit versucht, eine Schnittstelle zu entwickeln, die es Nutzern erlaubt, selbst
die Regeln für die Erstellung der Tag-Vorschläge zu steuern. Wie die Abbildung
der derzeitigen Nutzeroberfläche zeigt (s. Abbildung 11. S. 35), kann beispielswei-
se vom Nutzer festgelegt werden, ob Tag-Vorschläge aus dem Tagging-Verhalten
aller ALOE-Nutzer generiert werden sollen, oder ob nur Kontakte einbezogen
werden sollen.




22
     Wir haben bereits ausführlich Empfehlungssysteme für Annotationen vorgestellt und
     diskutiert, wie man die Qualität ihrer Empfehlungen bewerten kann (Schön, Kurz u.a.
     2011).
23
     http://delicious.com/ (28.08.2012)


34
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche




                          Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge.
                                          Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688


(h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags
Wenn Systeme auf Social Tagging aufbauen, haben sie mit dem Cold-Start-Pro-
blem zu kämpfen: Solange keine Tags vorhanden sind, sind entsprechende Doku-
mente z. B. über entsprechende Suchfunktionen nicht auffindbar. Um dieses Pro-
blem zu entschärfen, werden automatische Tags vergeben, die beispielsweise
durch Methoden des Text-Mining (siehe Abschnitt zu Texten) ermittelt werden.
Diese automatischen Tags können also auch fehlerhaft oder unsinnig sein. Im Pro-
jekt „InterEDU“ des Salzburg NewMediaLab wurde daher ein System der Quali-
tätssicherung eingeführt um automatische Tags und Tags der Lehrer unterschei-
den zu können. Zu diesem Zweck wurde folgende Markierung der Lernmaterialien
eingeführt:
– Wolken kennzeichnen Lernmaterialen, denen automatisch Tags zugewiesen
  wurden, die also auf statistischen Analysen beruhen und fehlerhaft sein können.
– Wolken mit einer durchbrechenden Sonne markieren Lernmaterialien, bei de-
  nen ein beliebiger Nutzer bereits eigene Tags ergänzt hat (und ggf. die automa-
  tisch ermittelten übernommen hat).



                                                                                                 35
Technologische Unterstützung der Qualitätssicherung


– Eine Sonne haben schließlich die Lernmaterialien, wenn ein Administrator oder
  Gegenstandsbetreuer das Lernmaterial über eine spezielle Schaltfläche freigege-
  ben hat. Jede weitere Bearbeitung führt wieder zur vorherigen Stufe (Wolken
  mit durchbrechender Sonne), so dass das Lernmaterial einer erneuten Freigabe
  durch einen Administrator oder Gegenstandsbetreuer bedarf.
Statt der Wolken bzw. der Sonne sind alternativ auch Darstellungen von Ver-
kehrsampeln denkbar. Nicht immer ist so eine relativ rigide Kontrolle der Qualität
von Tags notwendig, wie es im Falle der Lernressourcen in diesem Projekt erwar-
tet wurde. Aber es zeigt sich an diesem Beispiel, dass auch hier die Qualität von
Social-Tagging-Systemen noch erhöht werden kann.

(i) Spielbasierte Ansätze zur Qualitätsprüfung
Um im größeren Umfang Tags zu Bildern zu erhalten, entwickelten kreative Köpfe
das ESP-Game (www.espgame.org, von Ahn & Dabbish, 2004). Die Spielidee liegt
darin, dass Spieler zu Bildern Tags eingeben, von denen sie annehmen, dass sie
auch von anderen Nutzern verwendet werden und je nach Übereinstimmung
Punkte erhalten. Dabei hat sich gezeigt, dass schnell allgemeine Tags verwendet
werden, so dass diese Worte inzwischen ausgeschlossen werden, was das Spielen
jedoch nicht weniger spannend macht, sondern eher noch herausfordernder.
Die Idee des ESP-Spiels wurde inzwischen von anderen aufgegriffen. So hat
Google den „Google Image Labeler“ implementiert und erhält durch dessen Spieler
viele Metainformationen über Bilder. Auch wurde die Spielidee auf andere Medien
übertragen (z.B. auf Musikstücke: „Tag a Tune“, via www.espgame.org). Hier wer-
den Musikstücke vorgespielt, die getaggt werden sollen. Andere wiederum entwi-
ckelten daraus ein Spiel (und Patent), das auf einem horizontalen Display gespielt
wird (Diakopoulos & Chiu, 2007).
Nun stellt sich die Frage, ob solche Spielideen nicht auch zur Qualitätssicherung
von Annotationen in Medienarchiven eingesetzt werden könnten. Eine Möglich-
keit wäre, dass Spieler Punkte für übereinstimmende Annotationen erhalten, Ab-
weichungen aber tatsächlich auch zur Kontrolle der Annotation verwendet wer-
den.
Im Kompetenzzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge-
neration“ wurde von der Universität Innsbruck das Spiel „TubeLink“ entwickelt
und evaluiert24, das auf dem „Wisdoms Of A Crowd“-Ansatz beruht: Mehrere Spie-
ler geben unabhängig voneinander Antworten zur gleichen Problemstellung. Bei
TubeLink ordnen die Spieler aus einer Menge vorgegebener (passender und un-
passender) Begriffe einem Video jene Begriffe zu, die sie für passend halten, z.B.
ein Begriff für etwas, was in dem Video abgebildet ist, oder eine Stimmung, die sie
mit dem Video assoziieren.


24
     Die folgenden Ausführungen stammen von Michael Thaler, STI Innsbruck


36
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche




                                                                Quelle: TubeLink (Stand 10.12.2011)

Aus der Gesamtsicht der zugeordneten Begriffe aller Mitspieler erhält man nun
nicht nur eine Auswahl von mehrheitlich als passend betrachteten Annotationen,
sondern die Annotationen werden auch – mit einer gewissen „Unschärfe“ – auf
der Zeitleiste des Videos angeordnet. Die dahinterliegende Annahme ist, dass
beim Heranziehen mehrerer Antworten zur gleichen Problemstellung das Ergeb-
nis zum richtigen konvergiert (d.h. qualitativ besser ist als eine Einzelbeurtei-
lung).
Die Umsetzung bzw. Evaluation des Spiels und seiner Ergebnisse zeigt, dass es
sich nicht als trivial erweist, den spielerischen Ansatz umzusetzen: Die Auswer-
tung der Antworten ist verhältnismäßig einfach. Ein Spiel zu entwickeln und eine
konstante Anzahl an Spieler zu erhalten, hat sich jedoch als schwierig erwiesen.
Hier alleine Punkte zu vergeben erscheint zu wenig um hier wiederkehrende Spie -
ler zu finden.




                                                                Quelle: TubeLink (Stand 10.12.2011)




                                                                                               37
Technologische Unterstützung der Qualitätssicherung


Die Idee, mit spielerischen Ansätzen Annotationen für Videos zu erhalten und die
Qualität der so erhaltenen Annotationen zu bewerten und zu sichern wird auch an
anderer Stelle im Rahmen eines Dissertationsvorhabens erprobt (s. Gligorov &
Schreiber, 2012) und geplant (Riek u.a., 2011) 25.

(j) Qualitätssicherung auf Seiten der Nutzer/innen
Gerade wenn es sich um nutzergenierte Daten und Anmerkungen handelt und
nicht immer ganz klar ist, wie vertrauenswürdig diese sind, können auf Seiten der
Nutzer/innen Werkzeuge eingesetzt werden, die eine entsprechende Auswahl
möglich machen.




                                                             Abbildung 14: Annotationsformen bei Videolyzer
                                                                   Quelle: Diakopoulos & Essa, 2008, figure 3




25
     Vergleiche dazu auch das Projekt „Waisda?“: 2009 wurde von Forschern der VU Univer-
     sität Amsterdam im Rahmen des europäischen Forschungsprojekts PrestoPRIME ein Vi-
     deo-Annotations-Spiel gestartet, bei dem die Mitspieler aufgefordert wurden, mit Be-
     grifen zu annotieren, was sie sehen und hören: http://imagesforthefuture.com/en/rese-
     arch/waisda-video-labeling-game-evaluation-report (2012-11-26)


38
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


Ein Beispiel dafür, wie Nutzer/innen selbst bei der Qualitätssicherung mitwirken
könnten, ist der Forschungsprototyp Videolyzer 26, bei dem politisch Interessierte
Videos zu politischen Themen annotieren können und jeweils die Annotationen
anderer annotieren können (Diakopoulos & Essa, 2008). Die Abbildung 14 zeigt,
welche Annotationen so im Einzelnen möglich sind.
In diesem und weiteren ähnlichen Forschungsprojekten geht es also letztlich dar-
um, Aussagen über die Vertrauenswürdigkeit der Annotationen zu erlangen: Dar-
aus ergibt sich als weiteres Forschungsgebiet die Möglichkeiten (automatisch)
einschätzen zu können, wie vertrauenswürdig Annotationen sind. Ceolin u.a.
(2010) untersuchen beispielsweise, mit welchem Verfahren professionelle Anno-
tationen (von naturwissenschaftlichen Museen) die höchsten Vertrauenswürdig-
keit-Bewertungen erhalten und mit geringer Fehlerwahrscheinlichkeit als ver-
trauenswürdig identifiziert werden. Solche Erfahrungen könnten später genutzt
werden, um gute und schlechte externe Annotatoren und ihre Annotationen kor-
rekt einordnen zu können.
Ein weiteres gutes Beispiel, vor allem eines, das tatsächlich im großen Umfang ge-
nutzt wird, ist die Qualitätssicherung beim OpenStreetMap-Projekt.27 Im Open-
StreetMap Projekt28 wird das Ziel verfolgt freie geographische Daten zu erfassen
und allen Benutzern kostenfrei zur Verfügung zu stellen. Die Daten werden welt-
weit von freiwilligen Nutzern erfasst und editiert. Zu den einzelnen geographi-
schen Daten können zusätzliche Eigenschaften (Map Features) in Form von
Schlüsseln (Tags) und Werten (Values) gespeichert werden. OpenStreetMap lässt
prinzipiell alle möglichen Tags und Values zu. Um die Anwendung der freien Geo-
daten zu erleichtern wird von der Community ein Leitfaden für die Erfassung und
Bearbeitung der Map Features vorgeschlagen. Dieser Leitfaden ist im OpenStreet-
Map-Wiki29 dokumentiert.
Das Wachstum der Anzahl der Nutzer/innen und damit einhergehend auch des
Datenbestandes ist in den letzten Jahren groß (siehe Abbildung 15). Eine große
Herausforderung für die Zukunft der OpenStreetMap ist die Vervollständigung,
Wartung und Verbesserung der Daten. Damit wird auch ein Schwerpunkt auf die
qualitative Verbesserung der Daten gelegt.




26
     http://www.videolyzer.com/ (2012-08-23)
27
     Autor der OSM-Beschreibung: Sven Leitinger, Salzburg Research Forschungsgesellschaft
28
     http://www.openstreetmap.org (2011-12-12)
29
     http://wiki.openstreetmap.org/wiki/DE:Map_Features (2011-12-12)


                                                                                                   39
Technologische Unterstützung der Qualitätssicherung




                                                  Quelle: OpenStreetMap Contributors, License: CC-BY-SA 2.0,
                                     http://wiki.openstreetmap.org/wiki/File:Osmdbstats1.png (26.11.2012)

Die Qualitätssicherung in OpenStreetMap erfolgt durch die Community selbst. Die
Datenqualität kann in folgende Teilbereiche unterschieden werden: geometrische
Qualität, Qualität der Map Features und die Qualität des Abdeckungsgrades. Um
die geometrische Qualität und die Qualität des Abdeckungsgrades zu verbessern
existieren bereits verschiedene Werkzeuge zur allgemeinen Meldung von Fehlern,
spezielle Karten zur Fehlersuche, Werkzeuge zur Überprüfung von Wegen und
Relationen für die Erstellung von Routing-Graphen30. Diese Werkzeuge wurden
vor allem für den Einsatz auf desktop-basierten Systemen entwickelt. Dazu ist es
in vielen Fällen nicht notwendig die Daten im Feld zu erfassen und zu verbessern,
sondern die Datenqualität über die zu Hilfenahme von freien Luft- und Satelliten-
bildern zu verbessern.
Für die Verbesserung der Map Features ist es hingegen notwendig die Daten vor
Ort zu verbessern. Bis jetzt gibt es nur wenige mobile Anwendungen zur Erfas-
sung und Verbesserung von OpenStreetMap-Daten auf mobilen Endgeräten wie
Smartphones oder Tablet PC. Mit der freien mobilen Applikation „OSMapTuner“
können in Zukunft vor Ort die einzelnen Map Features und deren Tags und Values
anhand des OSM-Wikis validiert werden und fehlende bzw. fehlerhafte Daten ver-


30
     http://wiki.openstreetmap.org/wiki/Qualitätssicherung (2011-12-12)


40
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


bessert werden (siehe Abbildung 16). Der OSMapTuner wurde im März 2012 für
alle OpenStreetMap-Benutzer weltweit auf Google play bereitgestellt31.




                          (rechts) Signalisierung von fehlenden Tags durch die automatische Tag-Validierung.
                                                              Diese können durch Auswahl geändert werden.
                                                                                   Quelle: Salzburg Research




31
     https://play.google.com/store/apps/details?id=at.srfg.osmaptuner (28.08.2012)


                                                                                                        41
Technologische Unterstützung der Qualitätssicherung




42
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche



     DER EINSATZ UND ERFAHRUNGEN MIT QUALITÄTSSICHERUNG VON
     ANNOTATIONEN IN MEDIENARCHIVEN

Neben unserer allgemeinen Übersicht waren wir interessiert daran, auch tiefere
Einblicke in die Praxis der Qualitätssicherung von Annotationen in Medien-
archiven zu erlangen. Wir haben dazu Ausführungen vom Österreichischen Rund-
funk (ORF), Dokumentation und Archive, sowie vom Archivar des Privatsenders
Servus TV erhalten.

Qualitätssicherung der Annotation in der täglichen Praxis des
ORF-Fernseharchives32
Zweck der Annotation im ORF-Fernseharchiv ist grundsätzlich einerseits die voll-
ständige Dokumentation der Fernsehinhalte und andererseits die rasche Wieder-
auffindbarkeit und weitere Nutzung der Inhalte durch Redakteure und Archivmit-
arbeiterinnen und -mitarbeiter. Viele Archivmitarbeiterinnen und -mitarbeiter
sind in beiden Bereichen tätig – sowohl in der Auswertung als auch in der Recher-
che. Es existiert ein gemeinsamer „Wortschatz“. Annotateure wissen, wonach re-
cherchiert wird, Rechercheure wissen, wie annotiert wurde. Im Gegensatz zu Da-
tenbanken und Suchmaschinen mit einer breiten User-Nutzung, die auch eine
große Diversität der Annotation notwendig machen, gibt es für das ORF-Fernse-
harchiv sehr klare Auswertungsrichtlinien, eine Einschulung von Annotateuren
sowie eine (derzeit eher oberflächliche) Kontrolle der Annotationen.

Auswertungsrichtlinien
Wichtigstes Instrument der Qualitätssicherung der Annotation ist das von einigen
Archivmitarbeiterinnen und -mitarbeitern in einer Arbeitsgemeinschaft zusam-
mengestellte, sogenannte „Musterbuch“. Diese schriftlich festgehaltenen Auswer-
tungsrichtlinien dienen einer möglichst einheitlichen Formulierung bei der inhalt-
lichen Erschließung von Dokumenten – Grundlage für eine rasche und zielführen-
de Recherche. Ergänzungen und Aktualisierungen zu den Richtlinien sind dabei
notwendig und durchaus erwünscht.
Im Musterbuch festgeschrieben sind – entsprechend den Auswertungsfeldern der
im ORF genutzten Archivdatenbank „FESAD“ – Richtlinien zur Titelansetzung, zur
Personenangabe, zum Sachinhalt einer Sendung/eines Beitrages, zur Bildbe-
schreibung sowie zu geografischen Angaben.
Der Sachinhalt eines Dokumentes soll in knapper, prägnanter, journalistischen
Ansprüchen genügender Weise – analog einer Zeitungs- bzw. Agenturmeldung –

32
     Autoren: Mag. Andrea Wolfinger / Redakteurin Dokumentation / ORF – Dokumentation
     & Archive – FZ2, Text zu „Einschulung neuer Annotateure“: B.A. Michael Vielhaber
     M.P.O.S. / Redakteur Dokumentation / ORF – Dokumentation & Archive - FZ2)


                                                                                                   43
Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in Medienarchiven


in ganzen Sätzen formuliert sein, zum Verständnis wichtige Informationen enthal-
ten und für künftige Recherchen relevante Zentralbegriffe beinhalten.
Im Feld Bildinhalt erfolgt eine mit Stichworten frei formulierte Motivbeschrei-
bung unter Verwendung von Synonymbegriffen (z.B. Flugzeug, Passagiermaschi-
ne, Boeing 737, Lufthansa-Maschine,…) und unter Berücksichtigung der gestalteri-
schen Wiederverwertbarkeit der Bilder und deren sinnvoller Abfragbarkeit.
Wichtigste Orientierungshilfe für die Bildbeschreibung stellen die im Musterbuch
festgelegten Motivparameter dar. Sie dienen der Vereinheitlichung von Standard-
situationen, um einerseits die Motivbeschreibung zu erleichtern und andererseits
die Suche und Wiederverwertbarkeit der Inhalte zu erleichtern. Im Anschluss an
die Auflistung der Motivparameter erfolgt eine genaue Definition mit Beispielen
aus der Annotations-Praxis (vgl. Abbildung 17).
                                           STRASSENSZENE
  Der Motivparameter STRASSENSZENE wird für typisches Straßenleben (Atmo) einer
  Stadt/eines Ortes verwendet. Ländertypische bzw. nicht zuordenbare Straßenszenen
  können (zusätzlich) auch mit STRASSENSZENE-Land/Region bezeichnet werden. Außer-
  dem können genauere Beschreibungen in runder Klammer ergänzt werden. STRAS-
  SENSZENE- wird immer vorgestellt, der Hauptsuchbegrif mit Bindestrich angefügt.
  Mehrere Einstellungen werden mit div. STRASSENSZENE- angegeben.
  BEISPIEL:
    STRASSENSZENE-Belgrad (Winter)
    STRASSENSZENE-London (Regen, PKW-Verkehr, Passanten)
    STRASSENSZENE-Rajasthan (STRASSENSZENE-Indien)
  PLURAL: div. STRASSENSZENE-Osteuropa
                              Abbildung 17: Auszug aus dem Musterbuch des ORF, Beispiel „Strassenszene“
                                                                                            Quelle: ORF

Geografische Angaben zu einer Sendung/einem Beitrag werden ebenfalls nach im
Musterbuch festgelegten formalen und inhaltlichen Kriterien (z.B. Reihung, Tren-
nung, Großschreibung, Abkürzungen) gemacht. Eine Werteliste, wie sie im bis
Ende 2008 verwendeten Archiv-System „FARAO“ angeboten wurde und die für
Staaten eine einheitliche Ansetzung erzwungen hat, existiert in FESAD nicht mehr
und stellt in diesem Zusammenhang auch eine Schwächung der Qualitäts-
sicherung dar. Fehlerhafte Schreibweisen werden nicht mehr zurückgewiesen.
Zusätzlich zu den eben genannten Freitextfeldern (z.B. Titel, Personen, Sachinhalt,
Bildinhalt, Indexat Geo) bietet FESAD aber in anderen Bereichen die Möglichkeit
einer inhaltlichen Erschließung über Wertelisten. So kann der Inhalt einer Sen-
dung/eines Beitrages oder der gestalterische Aufbau durch die Auswahl zutref-
fender Begriffe aus einer entsprechenden Werteliste klassifiziert werden. Wobei
die Auswahl mehrerer Begriffe möglich und meist auch notwendig ist.




44
QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche


Der Bestand der inhaltlichen Sachbegriffe wurde im Laufe der Jahre erweitert. Die
Verwendung der Sachbegriffe ist somit nicht konsistent. Die Einführung bzw. Auf-
lösung eines Begriffes entwickelt sich aus der täglichen Arbeit. Bei der Auswer-
tung und bei der Recherche können durch neue Themenschwerpunkte neue Sach-
begriffe erforderlich werden. Andere früher durchaus verwendete Begriffe wer-
den obsolet. Im Laufe der Zeit wurden die Schlagworte auch vereinfacht oder mo-
difiziert.
Im Musterbuch folgt auf die Auflistung der Sachbegriffe (Schlagworte) wieder eine
genaue Definition mit Beispielen aus der Annotations-Praxis (vgl. Abbildung 18).
                                           EHRUNG
 Preisverleihung, Auszeichnung, Medaillen-Verleihung,... im Bereich Kunst, Kultur,
 Sport, Unterhaltung, Wirtschaft, Wissenschaft, Soziales usw.
 BEISPIEL:
       Historiker Saul Friedländer erhält Bruno-Kreisky-Preis
       EHRUNG; HISTORIE; KULTUR; PR; WISSENSCHAFT
       Oscar-Verleihung
       EHRUNG; KULTUR; MEDIEN; UNTERHALTUNG
       Siegerehrung nach Weltcup-Slalom
       EHRUNG; INTERNATIONAL; SPORT
       Rot-Kreuz-Mitarbeiter werden für ihren Einsatz geehrt
       EHRUNG; EXEKUTIVE; SOZIALES
                                 Abbildung 18: Auszug aus dem Musterbuch des ORF, Beispiel „Ehrung“
                                                                                        Quelle: ORF

Die Auswertungsrichtlinien stellen eine unabdingbare Voraussetzung für die
gleichbleibend hohe Qualität der Annotation dar. Sie sind auch wichtigster Be-
standteil der Einschulung neuer Annotateure.

Einschulung neuer Annotateure
In einem ersten Schritt werden neue Annotateure mit einer der wesentlichsten
Herausforderungen der audiovisuellen Inhaltserschließung für ein produzieren-
des und produktionsunterstützendes Fernseharchiv konfrontiert, nämlich jener
der subjektiven Wahrnehmung. Der Umstand, dass audiovisuelle Eindrücke nicht
neutral, sondern subjektiv wahrgenommen und verarbeitet werden, stellt ein ve-
ritables Problem dar, da die Dokumentation der Eindrücke auch entsprechend in-
dividuell variiert. Es gilt daher, ein entsprechendes Problembewusstsein zu schaf-
fen. Das passiert, indem neue Annotateure gebeten werden, eine Sequenz von drei
bis vier Einstellungen bzw. etwa 15-25 Sekunden Dauer bildinhaltlich zu erfassen.
Der genaue Arbeitsauftrag lautet: „Verschriftlichen Sie bitte, was Sie nun sehen“.
Daraufhin wird den künftigen Archivmitarbeitern eine audiovisuelle Sequenz vor-
geführt. Wenn in weiterer Folge die unterschiedlichen Auswertungen besprochen
werden, wird transparent, dass niemand das exakt selbe Motiv wahrgenommen


                                                                                               45
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.
Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

Weitere ähnliche Inhalte

Andere mochten auch

2011 03 25 liderar111
2011 03 25 liderar1112011 03 25 liderar111
2011 03 25 liderar111
PSOE Alaquàs
 
OD Systeme General SRPSKI 26.04.2016
OD Systeme General SRPSKI 26.04.2016OD Systeme General SRPSKI 26.04.2016
OD Systeme General SRPSKI 26.04.2016
Milan Zivic
 
Josef Resch Rip Deal Ermittlungen und Inkassobüro
Josef Resch Rip Deal Ermittlungen und InkassobüroJosef Resch Rip Deal Ermittlungen und Inkassobüro
Josef Resch Rip Deal Ermittlungen und Inkassobüro
Josefresch100
 
Anoia county 2010-11 grup 3
Anoia county 2010-11 grup 3Anoia county 2010-11 grup 3
Anoia county 2010-11 grup 3
vanesamases
 
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
Thorne & Derrick UK
 
Presentación digiway place to pay ecommerce gye
Presentación digiway place to pay ecommerce gyePresentación digiway place to pay ecommerce gye
Presentación digiway place to pay ecommerce gye
Marcos Pueyrredon
 

Andere mochten auch (20)

Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
 
Don’t let your offshoring become a shipwreck
Don’t let your offshoring become a shipwreckDon’t let your offshoring become a shipwreck
Don’t let your offshoring become a shipwreck
 
2011 03 25 liderar111
2011 03 25 liderar1112011 03 25 liderar111
2011 03 25 liderar111
 
Máster en Gestión Cultural IART
Máster en Gestión Cultural IARTMáster en Gestión Cultural IART
Máster en Gestión Cultural IART
 
Gestor proyecto educativo_tic_integradores_de_las_tic
Gestor proyecto educativo_tic_integradores_de_las_ticGestor proyecto educativo_tic_integradores_de_las_tic
Gestor proyecto educativo_tic_integradores_de_las_tic
 
Divercity
DivercityDivercity
Divercity
 
Sacred Spaces Ancient Places
Sacred Spaces Ancient PlacesSacred Spaces Ancient Places
Sacred Spaces Ancient Places
 
OD Systeme General SRPSKI 26.04.2016
OD Systeme General SRPSKI 26.04.2016OD Systeme General SRPSKI 26.04.2016
OD Systeme General SRPSKI 26.04.2016
 
COMUNIDAD JOSEFINA (Instituto San Jose)
COMUNIDAD JOSEFINA (Instituto San Jose)COMUNIDAD JOSEFINA (Instituto San Jose)
COMUNIDAD JOSEFINA (Instituto San Jose)
 
Digital Pen Flyer
Digital Pen FlyerDigital Pen Flyer
Digital Pen Flyer
 
Josef Resch Rip Deal Ermittlungen und Inkassobüro
Josef Resch Rip Deal Ermittlungen und InkassobüroJosef Resch Rip Deal Ermittlungen und Inkassobüro
Josef Resch Rip Deal Ermittlungen und Inkassobüro
 
Cuestionario
CuestionarioCuestionario
Cuestionario
 
Anoia county 2010-11 grup 3
Anoia county 2010-11 grup 3Anoia county 2010-11 grup 3
Anoia county 2010-11 grup 3
 
VDC Newsletter 2013-07
VDC Newsletter 2013-07VDC Newsletter 2013-07
VDC Newsletter 2013-07
 
Spanish furniture trade annual report 2013
Spanish furniture trade annual report 2013Spanish furniture trade annual report 2013
Spanish furniture trade annual report 2013
 
Bertie cv2
Bertie cv2Bertie cv2
Bertie cv2
 
VITA Technologies 2015 Media Kit
VITA Technologies 2015 Media KitVITA Technologies 2015 Media Kit
VITA Technologies 2015 Media Kit
 
Catálogo Anual de Beleza 2014
Catálogo Anual de Beleza 2014Catálogo Anual de Beleza 2014
Catálogo Anual de Beleza 2014
 
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
Kamstrup multical 801 heat meter, ultrasonic energy meter, heating & cooling ...
 
Presentación digiway place to pay ecommerce gye
Presentación digiway place to pay ecommerce gyePresentación digiway place to pay ecommerce gye
Presentación digiway place to pay ecommerce gye
 

Ähnlich wie Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

Digital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-LebenszyklusDigital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-Lebenszyklus
Georg Guentner
 
Rückblick - Smart Variant.CON 2013
Rückblick -  Smart Variant.CON 2013Rückblick -  Smart Variant.CON 2013
Rückblick - Smart Variant.CON 2013
Maria Willamowius
 

Ähnlich wie Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche. (20)

Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotati...
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotati...Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotati...
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotati...
 
Macht mit im Web! Anreizsysteme zur Unterstützung von Aktivitäten bei Communi...
Macht mit im Web! Anreizsysteme zur Unterstützung von Aktivitäten bei Communi...Macht mit im Web! Anreizsysteme zur Unterstützung von Aktivitäten bei Communi...
Macht mit im Web! Anreizsysteme zur Unterstützung von Aktivitäten bei Communi...
 
Bildungsatlas Virtual Engineering Baden-Württemberg 2013
Bildungsatlas Virtual Engineering Baden-Württemberg 2013Bildungsatlas Virtual Engineering Baden-Württemberg 2013
Bildungsatlas Virtual Engineering Baden-Württemberg 2013
 
Band1 crowdsourcing open_access
Band1 crowdsourcing open_accessBand1 crowdsourcing open_access
Band1 crowdsourcing open_access
 
Industry meets Makers Medien-Brunch Handout
Industry meets Makers Medien-Brunch HandoutIndustry meets Makers Medien-Brunch Handout
Industry meets Makers Medien-Brunch Handout
 
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
 
Die Zukunft des Semantic Web
Die Zukunft des Semantic WebDie Zukunft des Semantic Web
Die Zukunft des Semantic Web
 
Trendreport: Die Zukunft des Semantic Web
Trendreport: Die Zukunft des Semantic WebTrendreport: Die Zukunft des Semantic Web
Trendreport: Die Zukunft des Semantic Web
 
Digital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-LebenszyklusDigital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-Lebenszyklus
 
Zukunftsstudie Digitales Engineering 2025
Zukunftsstudie Digitales Engineering 2025Zukunftsstudie Digitales Engineering 2025
Zukunftsstudie Digitales Engineering 2025
 
Digital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-LebenszyklusDigital Twins im Anlagen-Lebenszyklus
Digital Twins im Anlagen-Lebenszyklus
 
Unternehmertreff am Mediencampus
Unternehmertreff am MediencampusUnternehmertreff am Mediencampus
Unternehmertreff am Mediencampus
 
Jahresbericht ikum 2012
Jahresbericht ikum 2012Jahresbericht ikum 2012
Jahresbericht ikum 2012
 
VDC Newsletter 2006-07
VDC Newsletter 2006-07VDC Newsletter 2006-07
VDC Newsletter 2006-07
 
VDC Newsletter 2010-06
VDC Newsletter 2010-06VDC Newsletter 2010-06
VDC Newsletter 2010-06
 
Abschlussbericht des Projekts Viprof
Abschlussbericht des Projekts ViprofAbschlussbericht des Projekts Viprof
Abschlussbericht des Projekts Viprof
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
 
Ratgeber Virtuelle Techniken im Design
Ratgeber Virtuelle Techniken im DesignRatgeber Virtuelle Techniken im Design
Ratgeber Virtuelle Techniken im Design
 
VDC Newsletter 2008-10
VDC Newsletter 2008-10VDC Newsletter 2008-10
VDC Newsletter 2008-10
 
Rückblick - Smart Variant.CON 2013
Rückblick -  Smart Variant.CON 2013Rückblick -  Smart Variant.CON 2013
Rückblick - Smart Variant.CON 2013
 

Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

  • 1. QUALITÄTSSICHERUNG BEI ANNOTATIONEN und technologische Verfahren in der Medienbranche Sandra Schön und Georg Güntner unter Mitwirkung von Jean-Christoph Börner, Sven Leitinger, Marius Schebella, Andreas Strasser, Stefan Thaler, Michael Vielhaber und Andrea Wolfinger
  • 2. Das Kompetenzzentrum für Neue Medien, Salzburg NewMediaLab – The Next Generation (SNML-TNG) arbeitet unter der Koordination der Salzburg Research Forschungsges.m.b.H. daran, digitale Inhalte zu personali- sieren, für alle auffindbar zu machen und nachhaltig zu nutzen: Dazu werden Informationen auf der Ebene der In- halte (Linked Content), der stukturierten Daten (Linked Data) und der sozialen Interaktion (Linked People) ver- knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me- dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe- tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit- teln des BMWFJ, des BMVIT und des Landes Salzburg. Homepage: www.newmedialab.at © Salzburg NewMediaLab – The Next Generation – November 2012 ISBN 978-3-902448-32-3 Sandra Schön, Georg Güntner, Jean-Christoph Börner, Sven Leitinger, Marius Schebella, Andreas Strasser, Stefan Thaler, Michael Vielhaber und Andrea Wolfinger: Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche. Band 5 der Reihe „Linked Media Lab Reports“, herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert Verlag und Herstellung: Salzburg Research, Salzburg Umschlaggestaltung: Daniela Gnad, Salzburg Research Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
  • 3. Vorwort Das Kompetenzzentrum für Neue Medien agiert als Denkfabrik für innovative Konzepte und Lösungen für die österreichische Medien- und Content-Industrie und bietet Technologieanbietern und den Betreibern von Internet-Plattformen eine Heimat zur Entwicklung und Erprobung innovativer Informationsarchitek- turen. Gemeinsam mit führenden Vertretern der Medien- und Content-Industrie wurden dabei von Beginn an konkrete Lösungen entwickelt und erfolgreich umge- setzt. Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia- Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des Semantic Web erstmals die Bedeutung von Inhalten auch für Computer- programme begreifbar zu machen. In dieser Zeit arbeitete das Salzburg New- MediaLab an der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Ver- wendungsbereich automatisch anpassen. Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da- ten und von Akteuren bzw. auf deren sozialen Interaktion mit den Inhalten be- ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes der Akteure bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene Anwendungen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung personalisierter Inhalte zu reduzieren. Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter der Koordination der Salzburg Research Forschungsgesellschaft führende öster- reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG, Salz- burger Nachrichten, derStandard.at) und Softwarehäuser (mediamid, Semantic Web Company, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von For- schungseinrichtungen im Bereich der Multimedia-Technologien, des Semantic Web und der sozialen Medien (Studiengang MultiMediaTechnology der FH Salz- burg, Semantic Technology Institut der Universität Innsbruck, Salzburg Research). Im Rahmen der Forschungsarbeiten beschäftigen wir uns schwerpunktmäßig mit Fragestellungen zur unternehmensweiten Suche („Semantic Enterprise Search“) und mit Verfahren zur Annotation von Unternehmens-(Daten-)Ressourcen. Dabei spielt die Qualitätssicherung bei Annotationen eine zunehmend wichtige Rolle, weil die Qualität der Annotationen – gerade im Bereich der audiovisuellen Medi- en, wo automatische inhaltsbasierte Analyseverfahren noch keine befriedigenden Ergebnisse liefern – eine wichtige Voraussetzung für die Qualität der Suchergeb- nisse ist.
  • 4. Wir hoffen, mit diesem fünften Band der „Linked Media Lab Reports“ einen gelun- genen Einblick in die Möglichkeiten der Qualitätssicherung von Annotationen zu geben. Auch im Namen von Sandra Schön bedanke ich mich dabei herzlich bei unseren Partnern und Ko-Autorinnen und Autoren, namentlich Dipl-Infowiss. Jean-Chri- stoph Börner (Leiter Mediendokumentation und TV-Archiv ServusTV), MSc. Sven Leitinger (Salzburg Research) Dr. Andreas Strasser (Salzburg Research), Stefan Thaler (ehemals STI Innsbruck), Mag. Andrea Wolfinger (Redakteurin Dokumen- tation / ORF – Dokumentation & Archive – FZ2) sowie B.A. Michael Vielhaber M.P.O.S. (Redakteur Dokumentation / ORF – Dokumentation & Archive – FZ2). Herzlichen Dank auch an MSc. Marius Schebella (FH Salzburg) für seine Hinweise und Verbesserungsvorschläge! Georg Güntner www.newmedialab.at Zentrumsleiter November 2012
  • 5. Inhaltsverzeichnis Einleitung und Hintergrund........................................................................... 7 Einleitung................................................................................................. 7 Hintergrund.............................................................................................. 8 Annotationen: Entstehung und Einsatz.......................................................... 9 Annotationen........................................................................................... 9 Die Entwicklung von papierbasierten zu digitalen Annotationen .............9 Annotationsformen und -kombinationen............................................... 12 Qualität von Annotationen und ihre Rolle für die Medienbranche..............15 Rolle von Annotationen in der Medienbranche...................................... 15 Qualität von Annotation......................................................................... 15 Kriterien nach Annotationstyp................................................................16 Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung............................................................................ 17 Der Prozess der Annotation: Beteiligte und Rahmenbedingungen.........17 Ursache von Qualitätsmängeln...............................................................18 Qualitätssicherung................................................................................. 19 Qualitätsmanagement nach ISO-9000.................................................... 19 Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche ..................................................................................................... 20 Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen............20 „Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick ..................................................................................................... 22 Soziale Prozesse der Qualitätssicherung...................................................... 23 (a) Entwicklung von Klassifikationsschemas und Regelwerken...............23 (b) Überprüfung des Klassifikationsschemas auf Konsistenz...................25 (c) Doppelte und mehrfache Annotation................................................ 25 (d) Schulung von Kategorienschemas und Annotationstraining..............25 (e) Überprüfung der Anwendung von Klassifikationsschemas................25 (f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren...............26 (g) Zusammenarbeit von Archivaren und Kunden/Nutzern....................27 (h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit ..........27 (i) Erhebung des Nutzerverhaltens......................................................... 27
  • 6. Technologische Unterstützung der Qualitätssicherung................................29 (a) Unterstützung bei der Erstellung und beim Management von Kategorienschemas (Taxonomien)............................................... 29 (b) Steuerung des Annotationsprozess................................................... 30 (c) Vergleich der Annotationen und Bereinigung bei Mehrfach- Annotation................................................................................... 31 (d) Qualitätsprüfung mit Hilfe automatischer Annotationen .................31 (e) Monitoring des Annotationsprozess..................................................32 (f) Qualitätssicherung mit und von (semi-) automatischen Annotationen ..................................................................................................... 32 (g) Einsatz von Empfehlungssystemen für Annotationsvorschläge.........34 (h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags ..................................................................................................... 35 (i) Spielbasierte Ansätze zur Qualitätsprüfung........................................36 (j) Qualitätssicherung auf Seiten der Nutzer/innen................................38 Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in Medienarchiven................................................................................ 43 Qualitätssicherung der Annotation in der täglichen Praxis des ORF-Fernseharchives................................................................... 43 Qualitätssicherung der Annotation bei Servus TV...................................47 Zusammenschau der Qualitätssicherungsaktivitäten in Fernseharchiven ..................................................................................................... 49 Ausblick und Entwicklungen........................................................................ 51
  • 7. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche EINLEITUNG UND HINTERGRUND Einleitung Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu können, wird mit Annotationen gearbeitet. Dabei ist essentiell, dass es sich hierbei nicht um „irgendwelche“ Annotationen handelt, sondern Anmerkungen, Schlag- worte und weitergehende Informationen, die spätere Verwendungen, z.B. die Re- cherche, tatsächlich unterstützen. Wichtig ist also, insbesondere in der Medien- branche, in der es viele nicht-textuelle Beiträge gibt, die Qualität der Annotationen zu gewährleisten und abzusichern. In Handbüchern zum Projektmanagement oder Qualitätsmanagement im Multimedia-Bereich hat das Thema bisher keinen Einzug gefunden: Beispielsweise gibt es den Begriff „Annotation“ im ganzen Buch „Multimedia-Projektmanagement“ von Schifma und Heinrich (2001) nicht. Er taucht auch nicht im „Handbuch Medienproduktion (Krömker & Herkenrath, 2005) im Lehrbuch „Medienmanagement (Altendorfer & Hilmer, 2006) oder im „Medien- und Internetmanagement (Wirtz, 2005) auf.1 In unserem Bericht wird zunächst einführend geklärt, was Annotationen und ihre Zielsetzungen sind und auch, welche Annotationsformen und -bedürfnisse es vor allem in der Medienbranche gibt. Danach stellen wir Verfahren vor, wie man die Qualität von Annotationen sichern kann. Dabei werden sowohl soziale, als auch technologische Verfahren vorgestellt. Dazu werden wir den Forschungs- und Praxisstand zu folgenden Fragen beschrei- ben und erörtern: – Was sind Annotationen und welche Rolle spielen sie in der Medienbranche? – Welche sozialen Prozesse können die Qualität von Annotationen sichern? – Welche technischen Prozesse und Methoden können die Qualität von Annotatio- nen sichern? – Welche Verfahren werden derzeit in der Medienbranche tatsächlich eingesetzt? Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren- de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in Forschungsarbeiten erwähnt werden oder wie sie bei unseren Medienpartnern eingesetzt werden. Dieser Lab Report stellt damit eine Basis für weitere wissen- schaftliche und praktische Maßnahmen dar. 1 Hierbei beziehen wir uns auf Recherchen mit Hilfe der Volltextsuche bei Amazon.de (Stand 2012-09-30) 7
  • 8. Einleitung und Hintergrund Hintergrund Das Kompetenzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge- neration“, räumte im Rahmen seiner Forschungstätigkeit dem Thema „Annotatio- nen“ einen besonderen Stellenwert ein: Annotationen als Basis für semantische Suche bildeten den Schwerpunkt des 2. Forschungsjahres (Juli 2011 bis Juni 2012). Unter der Bezeichnung „Linked Media“ entwickelte das Kompetenzzen- trum seit 2010 Konzepte und Technologien für den Einsatz der vom World Wide Web Consortium (W3C) proklamierten Linked Data Prinzipen2 in der Medien- und Content-Industrie. Mit dem „Linked Media Framework“ (LMF3) wurde 2011 auch eine Referenzimplementierung für ein Toolset zur Verwaltung von Metadaten, In- halten und Annotationen nach den Prinzipien des W3C als Open Source Plattform bereitgestellt, die kontinuierlich weiterentwickelt und mittlerweile als Referenz- implementierung bei Apache Software Foundation (ASF 4) eingereicht wurde. Der Linked Media Ansatz erlaubt die Verwaltung von Ressourcen (Text, Videos, Metadaten, usw.) in einem standardisierten Format auf eine solche Weise, dass diese mit weiterführenden Begriffen, Hintergrundinformation und Beschreibun- gen auf einfache Art verknüpft werden können. Beispielsweise können Fragmente eines Videos mit den Biographien oder den Fotos der im Video vorkommenden Akteure verknüpft werden. Gleichermaßen können abgebildete Gegenstände und vorkommende Bildelemente mit weiteren Informationen innerhalb des Unterneh- mens verknüpft werden. Konkret wurde ein solches Verfahren für Red Bull Media House GmbH5 entwickelt, um die in einem Video abgebildeten Athleten eines Sport-Ereignisses mit der Athletendatenbank des Medienhauses zu verknüpfen. Dadurch erhalten die Redakteuren „auf Mausklick“ Hintergrundinformationen zu den Akteuren. Diese Art von semantischen Verknüpfungen bildet in der Medien- und Content-In- dustrie eine wesentliche Voraussetzung für die Einführung einer unternehmens- übergreifenden Suche: Sie erschließt unterschiedliche Informationssysteme und „Datensilos“ (beispielsweise die Mediendatenbank und die Athletendatenbank) und sie berücksichtigt die Bedeutung von Begriffen (beispielsweise „erkennt“ ein solches System, dass „Wien“ eine Stadt im Staat „Österreich“, oder eine bestimmte Person Mitarbeiter/in in einem bestimmten Projekt ist). Das „Salzburg NewMediaLab – The Next Generation“ agiert als anwendungs- orientierte Forschungsplattform für die Medien- und Content-Industrie, indem es derartige Verfahren nicht nur konzeptionell bereitstellt, sondern die Unterneh- men bei der Einführung derartiger innovativer Technologien begleitet. 2 Linked Data Principles: http://www.w3.org/DesignIssues/LinkedData.html (2012-10-31) 3 Linked Media Framework (LMF): http://www.newmedialab.at/LMF (2012-10-31) 4 Apache Software Foundation (ASF): http://www.apache.org/ (2012-10-31) 5 Red Bull Media House GmbH: http://www.redbullmediahouse.com/ (2012-10-31) 8
  • 9. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche ANNOTATIONEN: ENTSTEHUNG UND EINSATZ Annotationen6 In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be- deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio- nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert, ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne- ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010) Abbildung 1: Handschriftliche Notizen und Annotationen. Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (15.3.2011) Die Entwicklung von papierbasierten zu digitalen Annotationen Nicht nur auf Papier, z.B. Notizen am Rand von Büchern, wird annotiert. Im World Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom- men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho- mepages oder Profile bei Facebook, annotiert werden. 6 Bereits im Band 4 der Linked Media Lab Reports („Smarte Annotationen“) haben wir eine kurze Einführung zu Annotationen gegeben: vgl. Seite Schön u.a. 2011, S. 9f., eini - ge Abschnitte stammen im Folgenden von Dr. Andreas Strasser (Salzburg Research For- schugnsgesellschaft mbH). 9
  • 10. Annotationen: Entstehung und Einsatz Digitale Annotationen sind digitale Objekte, die an andere digitale Objekte „ange- hängt“ sind. Zunächst wurden papierbasierte Annotationsformen für die digitale Welt adaptiert. Dokumente sind dabei mit Metainformationen versehen worden, die die Klassifikation von Inhalten bzw. die Indexierung und Abfrage von Inhalten ermöglicht haben. Zunächst wurde diese Form der Annotierung auf Text ange- wandt, später auch auf andere digitale Dokumente (z.B. eine Website, eine Bild bzw. ein Videostream). Annotationen können dabei sowohl ergänzende Informa- tionen zu einem Dokument für mich selbst darstellen (d.h. Annotationen erlauben mir, die gegebene Information des Dokuments durch eigene zusätzliche Informa- tionen zu versehen), kann aber auch in kollaborativen Prozessen eingesetzt: d.h. Ideen und Meinungen zu gemeinsamen Dokumenten unterschiedlichster Art kön- nen ausgetauscht werden. (Hofman 2010, 12f). Im Mai 2012 fasste die Open Annotation Community Group 7 des World Wide Web Consortiums (W3C) eine Reihe von bedeutenden Vorarbeiten zur Spezifikation von Annotationen zusammen und entwickelte mit dem Open Annotation Core Data Model8 ein Referenzmodell für die Annotation von (Web-)Ressourcen, des- sen Grundprinzip in der folgenden Abbildung dargestellt ist: Abbildung 2: Grundprinzip einer Annotation nach dem Open Annotation Core Model. Quelle: http://www.openannotation.org/spec/core/ (30.9.2012) Eine Annotation wird prinzipiell als eine Verbindung zwischen der annotierten Ressource („target“) und dem Inhalt der Annotation („body“) definiert. Die Ver- bindung bedeutet, dass der Inhalt der Annotation („body“, z.B. ein Kommentar oder eine Klassifikation) irgendwie mit der annotatierten Ressource („target“, z.P. 7 Open Annotation Community Group: http://www.w3.org/community/openannotation/ (30.09.2012) 8 Open Annotation Core Data Model: http://www.openannotation.org/spec/core/ (30.09.2012) 10
  • 11. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Einer Textstelle, einem Abschnitt eines Videos oder einem Ausschnitt eines Bil- des) zu tun hat. Das Open Annotation Core Data Model unterstützt über diese Grundprinzipien hinausgehend semantisches Tagging, das Einbetten von Inhalten, die Auswahl von Ausschnitten von Ressourcen, die Wahl geeigneter Repräsentationen von Res- sourcen und die Bereitstellung von Hinweisen zur Darstellung für die Nutzer von Annotationen. Das Modell ist gleichermassen offen gegenüber computer-gestütz- ten Auswertungen der Annotation und gegenüber Auswertungen durch Men- schen. Die wichtigsten Grundlagen für die Entwicklung des Open Annotation Core Mo- dels bildten die unter Apache 2.0 Lizenz verfügbare Annotation Ontology 9 und die Open Annotation Collaboration10. Eine Erweiterung dieses Grundmodells für Vi- deos, Audio und Bilder erfolgte durch die Media Annotation Working Group 11 der Video in the Web Activity des W3C: Die Arbeiten dieser Gruppe umfassen die On- tology for Media Resources12 und eine Anwendungs-Programmierschnittstelle (API) für Medien Ressourcen13.Ziele der Annotation Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate- rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab- sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un- terscheiden. Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An- notationen vor allem – um die Recherche der Materialien zu verbessern, – um gute Empfehlungen für passendes eigenes weiteres Material zu geben, – um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen zu können (z.B. mit dem Linked-Data-Ansatz), – um das Ranking auf Suchmaschinen zu verbessern, – um das unternehmensinterne Wissensmanagement zu verbessern und – um mit Methoden des Webmonitoring das eigene Material und dessen Entwick- lung beobachten und bewerten zu können. Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig – für das eigene Informationsmanagement und – um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos bei Facebook mit dem Namen von Kontakten versehen werden. 9 Annotation Ontology: http://code.google.com/p/annotation-ontology/ (30.09.2012) 10 Open Annotation Collaboration: http://www.openannotation.org/commRes.html (30.09.2012) 11 Media Annotation Working Group: http://www.w3.org/2008/WebVideo/Annotations/ (30.09.2012) 12 Ontology for Media Resources: http://www.w3.org/TR/2012/REC-mediaont-10-20120209/ (30.09.2012) 13 API for Media Resources: http://www.w3.org/TR/2011/WD-mediaont-api-1.0-20111122/ (30.09.2012) 11
  • 12. Annotationen: Entstehung und Einsatz Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo- tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei- gen wird, entstehen Annotationen nicht zwangsläufig bewusst. Annotationsformen und -kombinationen Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da- von vorgestellt. Professionelle Klassifikation Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt. Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte, die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re- cherchieren kann. Mit Hilfe von Terminologien (z.B. kontrollierten Vokabularen und Thesauri) werden Terme in Verbindung gebracht, so dass beispielsweise ein Text zu Skifahren dem Bereich „Sport“ zugeordnet werden kann. In traditionellen Medienarchiven werden Materialien zu Kategorien und Unterkategorien zugeord- net, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte bein- halten. Ein Beispiel für eine mehrsprachige Taxonomie für den Nachrichtenbe- reich bilden die IPTC NewsCodes 14. Freie Verschlagwortung und Social Tagging Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön- nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä- re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192). Die Grenzen dieses Ansatzes werden rasch etwa an den Herausforderungen der Mehrsprachigkeit (z.B: deutsch „Venedig“, englisch „Venice“) oder – ganz abgesehen von Schreibfehlern – an unterschiedlichen einge- bürgerten Schreibweisen (z.B. „Tchaikovsky“, „Tschaikovski“) deutlich. Automatische Annotation Neben den von Personen durchgeführten Annotationen gibt es auch automatisch generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern Informationen generiert. Auch können die zahlreichen (Meta-) Informationen, die 14 http://www.iptc.org/site/NewsCodes/ (28.08.2012) 12
  • 13. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche im Web anfallen und gesammelt werden, bei der Entwicklung von Annotationen berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er aufgeru- fen, wen interessiert eine Webseite? Kombination der Ansätze Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus- drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi- schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro- blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma- chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku- mente z. B. über entsprechende Suchfunktionen nicht auffindbar. Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl & Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati- onsextraktion) mit manuell erzeugten Metadaten durch Tagging oder Klassifikati- on. Annotationstypen im Multimedia-Bereich Fragt man einen Praktiker, lassen sich (zumindest) folgende Typen der Multime- dia-Annotationen unterscheiden: – Klassifikation: jede Art der Annotation, die ein Asset, also eine Medieneinheit ei- ner Gruppe zuordnet. – Beschreibung des Inhalts: Beschreibung (vor allem) von Audio- und Video-As- sets („was ist im Video zu sehen?“), aber auch von Text-Dokumenten („was ist der Inhalt des Dokuments?“). – Metadaten (Aufnahmeort, technische Spezifikation, Länge, etc.) – Kommentare (weitere Hinweise, Anmerkungen) Klassifikationen können dabei in verschiedenen Bereichen getroffen werden: z.B. bei Art eines Berichts (z.B. ein Interview, ein Live-Bericht, eine Dokumentation), oder z.B. die Sparte des Videos (z.B. Sport, Politik, Religion). Musikstücke werden beispielsweise nach Genre eingeteilt (z.B. Klassik, Pop, Rock), können aber auch nach Epoche (z.B. Klassik, Romantik, Moderne) kategorisiert werden oder auch nach Anwendungszweck (z.B. Kirchenmusik, U-Musik). Bei der Beschreibung des Inhalt lassen sich u.a. die Objekt-Ebene (was/wer ist zu sehen) sowie die Inhalts-Ebene (worum geht es) unterscheiden. 13
  • 14. Annotationen: Entstehung und Einsatz Weiters unterscheiden wir nach Ossenbruggen, Stamou und Pan (2005) drei An- notationsebenen: – Rohdaten, beispielsweise die MPEG-3- oder JPG-Daten, also die reinen Multime- dia-Daten – strukturelle Beschreibungen, beispielsweise mit XML oder MPEG-7, also struk- turierte Informationen zu den Rohdaten sowie – semantische Beschreibungen, beispielsweise in RDF, OWL oder Regeln beschrie - ben. Ossenbruggen et al. (2005) bezeichnen diese Ebenen dabei als subsymbolische, symbolische bzw. logische Schichten und weisen darauf hin, dass sie technolo- gisch nicht trennscharf realisiert werden. Die Handelnden: Annotierende Zwar ist der Begriff der Annotation einschlägig bekannt, beim Schreiben dieses Lab Reports ist uns jedoch aufgefallen dass es – zumindest im Deutschen – bisher keine einheitliche Bezeichnung für die Person gibt, die eine Annotation macht. So verwendete unsere Autorinnen und Autoren auch unterschiedliche Begriffe, u.a. „Annotateure“, „Annotierer“ und „Annotator“. Auch wir konnten und wollten uns nicht festlegen. Und natürlich sind gleichermaßen Frauen und Männer gemeint wenn wir im Folgenden einen der Bezeichnungen verwenden. 14
  • 15. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche QUALITÄT VON ANNOTATIONEN UND IHRE ROLLE FÜR DIE MEDIEN- BRANCHE Was macht nun eine qualitativ hochwertige Annotation von Medienressourcen aus? Und welche Rolle spielt diese Qualität für die Medienbranche? Rolle von Annotationen in der Medienbranche Um die Frage nach qualitativ guten Annotationen beantworten zu können, ist zu- nächst wichtig zu klären, wie und warum in der Medienbranche mit Annotationen gearbeitet wird. Sie nutzt Annotationen unter anderem – für das eigene Informationsmanagement, – um die Recherche der Materialien zu verbessern, – um Materialien für andere erschließbar zu machen, – um gute Empfehlungen für passendes eigenes weiteres Material zu geben, – um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen zu können (z.B. mit dem Linked-Data-Ansatz), oder auch – um mit Methoden des Webmonitoring das eigene Material und dessen Entwick- lung beobachten und bewerten zu können. Annotationen sind damit mittelbar in der Medienbranche dafür verantwortlich, dass zum Beispiel (vgl. ARD, ORF & ZDF, 2008): – der eigene Absatz oder Verkauf gesteigert werden kann (zum Beispiel von eige- ne Bildern oder Videos), – der eigene Service verbessert werden kann (wenn z.B. Redakteure nicht lange auf gewünschte Bilder und Videosequenzen warten müssen), – redaktions- bzw. anstaltsübergreifende Recherchen möglich sind, – Entscheidungen darüber getroffen werden können, welche Materialien langfris- tig archiviert werden sollen und welche nicht, – es durch (kreative) Recherche und Wiederverwendung von Materialien zu Ein- sparungen bei der Produktion kommt und – das kulturelle Erbe gesichert wird (v.a. im Falle der öffentlichen Rundfunks). Qualität von Annotation Wie lässt sich nun genau die Qualität von Annotationen beschreiben? Annotationen sollten ganz allgemein (vgl. Schön, Kurz u.a., 2011, S. 30) wesentli- che Inhalte und Konzepte erfassen, detailliert sein, nicht (zu) allgemein sein und eine Ressource möglichst genau und eindeutig beschreiben. 15
  • 16. Qualität von Annotationen und ihre Rolle für die Medienbranche Die Qualität der Annotation lässt sich dann u.a. durch eine hohe Übereinstimmung der Annotation durch mehrere Expertinnen bestimmen, aber auch durch eindeuti - ge Zuordnungen der Annotationen auf bestimmte Ressourcen. Es geht also ab- strakt um eine möglichst hohe Konsistenz, also Stimmigkeit der Annotation (und Ressource). Darüberhinaus kann bzw. muss sich die Qualität von Annotationen auch häufig in der Nutzung, z.B. für die Recherche von Ressourcen, beweisen, so dass auf einmal auch Nutzer/innen über die Brauchbarkeit der verwendeten An- notationen mitentscheiden. Diese Qualitätsbeschreibungen beinhalten so auch einen Ansatz, wie die Qualität geprüft und gesichert werden kann. Schließlich kann es wichtig sein, dass auch die Annotationen im hohen Maße ver- trauenswürdig sind. Sofern man davon ausgeht, dass die Ressourcen von Profis, z.B. Archivaren annotiert wurden, kann man Vertrauenswürdigkeit ohne Weiteres voraussetzen. Problematisch und weniger selbstverständlich ist dies jedoch bei Daten die von externen Quellen hinzugezogen werden (z.B. Informationen aus der Wikipedia genutzt werden). Dies trifft insbesondere für den Linked-Data-Ansatz zu, wenn Daten oder Annotationen von Nutzer/innen miteinbezogen werden. Ver- trauenswürdigkeit (engl. „trust“) ist dabei nicht notwendigerweise ein Garant da- für, dass etwas fehlerfrei ist, sollte aber auf möglichst korrekte Annotationen füh- ren lassen (vgl. Ceolin u.a., 2010; Ceolin u.a., 2012). Kriterien nach Annotationstyp Betrachtet man die unterschiedlichen Typen von Annotationen zeigt sich, dass hier jeweils unterschiedliche Aspekte auf ihre Qualität hinweisen. Folgende Tabel- le zeigt dies exemplarisch an den bereits vorgestellten Annotationstypen. Klassifikation Vollständigkeit: Wurden bei allen möglichen Klassen gewählt? Genauigkeit/Präzision/Granularität: Wurde auf möglichst „tiefen“ Abstufun - gen geachtet? Korrektheit: Wurden richtige Klassen gewählt? Beschreibung des Inhalts Relevanz: Wurden relevante Inhalte beschrieben? Korrektheit: Wurden Inhalte richtig beschrieben? Metadaten Vollständigkeit: Sind alle Metadaten vorhanden? Genauigkeit: Wie genau sind diese erfasst? Korrektheit: Wurden die Metadaten exakt erfasst? Kommentare Relevanz: Wurden relevante Kommentare abgegeben? Korrektheit: Sind die Kommentare zutrefend? Tabelle 1: Annotationstypen und Qualitätskriterien Die Übersicht zeigt, dass unter Umständen unterschiedliche Kriterien herangezo- gen werden müssen um die Qualität von Annotationen zu bewerten. 16
  • 17. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche DER PROZESS DER ANNOTATION UND ANSATZMÖGLICHKEITEN DER QUALITÄTSSICHERUNG Der Prozess der Annotation: Beteiligte und Rahmenbedingungen Um ein besseres Bild davon zu erhalten, wo Qualitätssicherungsmaßnahmen an- greifen können, müssen sich Prozesse der Annotation genauer betrachtet werden. In Abbildung 3 werden dazu einige wesentliche Rahmenbedingungen und Betei- ligte dargestellt und im folgenden skizziert: Abbildung 3: Annotationsbeteiligte und -rahmenbedingungen für Qualitätssicherungsmaßnahmen Werden Medienressourcen, z.B. Bilder oder Videos in einem Medienunternehmen annotiert, sind folgende Beteiligte und Rahmenbedingungen zu nennen: A) Zunächst gibt es im Unternehmen Konventionen zur Annotation, z.B. wer- den bestimmte Metadaten verwendet oder Taxonomien, auch unterneh- menseigene Entwicklungen. Auch gibt es Routinen und Prozesse, auf wel- che Weise Ressourcen im Unternehmen gespeichert, erfasst und annotiert werden, z.B. Zuständigkeiten, auch ausgewiesene Qualitätssicherungs- strategien (z.B. doppelte Annotation) können hier darunter fallen. B) Dann sind die Systeme, in denen die Ressourcen gespeichert und/oder be- schrieben werden und ihre Möglichkeiten und Vorgaben der Annotation wesentlich. Einige Systeme beinhalten z.B. Empfehlungssysteme für Anno- tationen oder unterstützen die Qualitätssicherung der Annotation durch entsprechende Kennzeichnung von Materialien. C) Die Ressource selbst ist ebenso wichtig im Prozess der Annotation: Um welches Medienprodukt handelt es sich? Welche Bedeutung hat es im Un- ternehmen? Welchen Zweck erfüllt es, soll es erfüllen? Zur Annotation 17
  • 18. Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung von Videos gehört beispielsweise auch die sinnvolle Segmentierung der Videos in kürzere Abschnitte (z.B. mit der Keyframe-Methode oder einer automatischen Szenenerkennung). D) Der Ersteller einer Ressource ist in der Regel derjenige, der erste grobe Annotationen vornimmt oder überträgt, z.B. die Metadaten zu den Auf- nahmen (Bildgröße, Videolänge, Belichtungseinstellungen etc.). Auch wer- den zum Beispiel Videos mit groben Daten wie Aufnahmedatum, Ort, Zweck, Beteiligte versehen. E) In Medienfirmen gibt es in aller Regel (semi-) professionelle Archivare. Diese sind entsprechend ausgebildet und wurden in der Regel unterneh- mensintern geschult. F) Nutzer/innen von Ressourcen sind in zweierlei Hinsicht interessant: Zum einen sorgen sie direkt (z.B. durch Tagging) und indirekt (z.B. durch ihr Such- und Nutzungsverhalten) für eine Erweiterung der Annotationen ei- ner Ressource. Gleichzeitig können ihre Erwartungen, Erfahrungen und Verbesserungsvorschläge sowie ihr Verhalten auch bei der Qualitäts- sicherung eingesetzt werden. Diese Darstellung ist allgemein und abstrakt – je nach spezifischem Anwendungs- fall und Annotationsform gibt es hier Besonderheiten, auf die im Folgenden in den Beispielen auch eingegangen wird. So können beispielsweise Videos auch kollabo- rativ annotiert werden (u.a. Hofmann u.a., 2009). Ursache von Qualitätsmängeln Bei der Annotation können eine Reihe von Fehler auftreten, dabei sind unter an- derem die eigentümliche (fehlerhafte) Interpretation von Kategorien, Antwort- tendenzen, aber auch Faktoren wie Motivation oder Ermüdungserscheinungen zu nennen (Staab, Maedche & Handschuh, 2001). Darüberhinaus können auch die verwendeten Klassifikationsschema ungeeignet oder inkonsistent sein. Die skizzierten Einflussfaktoren und auch ihre Wechselwirkungen sind jedoch auch deshalb nicht eindeutig zu benennen, „da sie von den jeweiligen Merkmalen der Annotierer, des Schemas und der Objekte abhängen (vgl. auch Spiegelman, Terwilliger, & Fearing, 1953). Erschwerend kommt hinzu, daß Untersuchungen zu solchen Einflußfaktoren und ihrer Wirkung auf die Reliabilität (Anm. der Heraus- geber: „Übereinstimmung“) manueller Annotationen bislang kaum existieren. Ihre Kontrolle und da- mit eine systematische Qualitätssicherung von Annotationen ist somit nur eingeschränkt möglich. Anstrengungen in diesem Bereich müssen sich demnach im wesentlichen auf den Nachweis einer ausreichenden Annotations- qualität beschränken“ (Bayerl, 2003) 18
  • 19. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Qualitätssicherung Versuche und Ansätze, qualitativ hochwertige Dienstleitungen und Produkte zu erhalten und dies zu „sichern“ sind Verfahren der Qualitätssicherung und damit allgemeiner dem Qualitätsmanagement zu zuordnen. Maßnahmen zur Sicherung der Qualität von Annotationen können dabei ganz unterschiedlich gestaltet wer- den. Allgemein gibt es in unternehmerischen Kontext mehrere Verfahren und Vor- schläge, wie Qualitätssicherung betrieben werden kann. Weit verbreitet sind hier die entsprechenden ISO-9000-Normen (Fuchs, 2006, 58f). Qualitätsmanagement nach ISO-9000 Seit 1985 beschreiben diese Normen der „International Organization for Standar- dization“ (ISO) Formen, Vorgehen und Methoden des Qualitätsmanagements. Die vier Hauptabschnitte zu Qualitätsmanagement (ISO 9001:2000-12) tragen die Ti- tel Verantwortung der Leitung, Management von Ressourcen, Produktrealisie- rung, sowie Messung, Analyse und Verbesserung und werden in einem Modell ei- nes prozessorientierten Qualitätsmanagementsystems beschrieben. Zwei Regel- kreise des prozessorientierten Qualitätsmanagementsystems verbinden diese vier Bereiche (vgl. Becker, 2005, S. 35; Fuchs, 2006, 59). Der erste wird durch die Be- wertung des Managements als kontinuierliche Verbesserung geschlossen, der zweite bezieht Kundenanforderungen, die Umsetzung der Produkte (bzw. Dienst- leistungen) sowie Kundenzufriedenheitsmessungen ein (vgl. Abbildung 4). Abbildung 4: DIN EN ISO 9001:2000-12 – Modell eines prozessorientierten Qualitätsmanagementsystems Quelle: nach http://www.tqm.com/methoden/din-en-iso-9001 (10.11.2011) 19
  • 20. Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung Aus diesem Modell des Qualitätsmanagements lässt sich ableiten, dass „interes- sierte Parteien“ eine wichtige Rolle im Qualitätsmanagement spielen. Im Falle der Annotationen sind das Nutzer/innen der Annotationen: Welche Forderungen an gute Annotationen haben sie? Wie zufrieden sind sie mit den Annotationen? Wie hier ständig Verbesserungen erreicht werden können, ist allgemein die Aufgabe des Qualitätsmanagements. Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche Für Unternehmen in der Medienbranche gibt es eine Reihe von konkreten ISO- Normen die den Umgang mit Medienressourcen beschreiben. Immer wieder tau- chen hier auch Aspekte der Annotation auf. Beispiele dafür sind: – ISO 6199 zu Mikrofilme, „information required to facilitate identification of the microfilm“15, – ISO 15930-1 bis -8: Eigenschaften von pdf-Dateien als Druckvorlagen 16, z.B. zur Vollständigkeit der Angaben für den Druck und – ISO/IEC 18019: Guidelines for the design and preparation of software user do- cumentation17. Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen Im Folgenden betrachten wir, wie Qualitätssicherungsstrategien im Bezug auf die Qualität von Annotationen aussehen können. Diese lassen sich zunächst aus dem vorgestellten Annotationsprozessen sowie dem Qualitätsmanagement ableiten. Das „Produkt“ sind in unserem Fall annotierte Assets bzw. Medienressourcen. Fol- gende Matrix zeigt unterschiedliche Ansatzmöglichkeiten und Fragestellungen, die man sich im Rahmen der Qualitätssicherung der Annotation stellen kann (Ta- belle 2). Merkmale, nach denen hier jeweils entsprechende Lösungen oder Verfahren ent- wickelt werden, sollten sich an den Kriterien für gute Annotationen, also der Qua- lität von Annotationen richten. Gleichzeitig hat die Qualitätssicherung bzw. das damit verbundene Qualitätsmanagement auch weitere wichtige Kriterien für die Auswahl von Verfahren und relevanten Entscheidungen, diese sind beispielsweise Effektivität, Effizienz, die Höhe des Ressourceneinsatz bzw. -aufwand, Aufwands-/Ertrag-Relation und verschiedene eher betriebswirtschaftliche Aspek- te (vgl. „Management der Mittel“ in Abbildung 4, S. 19). 15 http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm? csnumber=27582 (2011-11-09) 16 http://de.wikipedia.org/wiki/PDF/X (2012-05-03) 17 http://www.usabilitynet.org/tools/r_international.htm (2012-07-23) 20
  • 21. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Verbesserung des Prozess der Qualitätsmanage- Annotation Annotation ment rund um das Annotieren Wie lässt sich der Pro- Wie lässt sich die Anno- Wie lässt sich das Quali- Annotationskon- zess der Annotation tation durch Annotati- tätsmanagement durch durch Annotationskon- ventionen und onskonventionen und Annotationskonventio- ventionen und Prozess- -prozesse Prozessgestaltungen ver- nen und -prozesse ver- gestaltungen verbes- bessern? bessern? sern? Wie lässt sich der Pro- Wie lässt sich das Quali- Wie lässt sich die Anno- Annotations- zess der Annotation tätsmanagement durch tation durch Annotati- systeme durch Annotationssyste- Annotationssysteme ver- onssysteme verbessern? me verbessern? bessern? Wie lässt sich der Pro- Wie lässt sich das Quali- Wie lässt sich die Anno- zess der Annotation im tätsmanagement der An- Medienasset/ tation im Hinblick auf die Hinblick auf die zu anno- notationen im Hinblick Ressource tierende Ressource ver- zu annotierende Res- auf die Ressourcen ver- source verbessern? bessern? bessern? Wie lässt sich der Pro- Wie lässt sich das Quali- Wie lässt sich die Anno- zess der Annotation im tätsmanagement der An- Ersteller einer tation im Hinblick auf die Hinblick auf die Ersteller notationen im Hinblick Ressource Ersteller von Ressourcen von Ressourcen verbes- auf die Ersteller von Res- verbessern? sern? sourcen verbessern? Wie lässt sich das Quali- Wie lässt sich der Pro- Wie lässt sich die Anno- tätsmanagement der An- Annotator zess der Annotation im tation im Hinblick auf die notationen im Hinblick ggf. Archivar Hinblick auf die Annota- Annotatoren verbess- auf die Annotatoren ver- toren verbessern? ern? bessern? Wie lässt sich der Pro- Wie lässt sich das Quali- Wie lässt sich die Anno- zess der Annotation im tätsmanagement der An- Nutzer/innen tation im Hinblick auf die Hinblick auf die Nutzer/- notationen im Hinblick der Ressourcen Nutzer/innen der Res- innen der Ressourcen auf die Nutzer/innen der sourcen verbessern? verbessern? Ressourcen verbessern? Tabelle 2: Ansatzmöglichkeiten und Fragestellungen für Qualitätssicherung bei der Annotation (Beispiele) 21
  • 22. Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung „Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick Für die nun folgenden Übersicht von Qualitätssicherungsmaßnahmen haben wir zum einen (eher) „soziale“ Maßnahmen zusammengestellt um in einem weiteren Kapitel „technische“ Maßnahmen vorzustellen. Die folgende Übersicht zeigt die einzelnen Maßnahmen, die in der Literatur oder in Gesprächen, oft nur exempla- risch, ausgeführt anhand der oben eingeführten wichtigen Aspekten der Anntota- tion (vgl. Tabelle 3). „soziale“ „technische“ Qualitätssicherungsmaßnahmen Qualitätssicherunsmaßnahmen (a) Entwicklung von Klassifikationsschemas und Regelwerken (a) Unterstützung bei der Erstellung und Annotations- (b) Überprüfung des Klassifikationsschemas beim Management von Kategoriensche- konventionen auf Konsistenz mas (Taxonomien) und -prozesse (c) Doppelte und mehrfache Annotation (b) Steuerung des Annotationsprozess (c) Vergleich der Annotationen und Bereini- Annotations- gung bei Mehrfach-Annotation [siehe rechts] systeme (d) Qualitätsprüfung mit Hilfe automati- scher Annotationen (e) Monitoring des Annotationsprozess Medienasset/ (f) Qualitätssicherung mit und von (semi-) [keine Vorschläge vorhanden] Ressource automatischen Annotationen Ersteller einer [keine Vorschläge vorhanden] [keine Vorschläge vorhanden] Ressource (d) Schulung von Kategorienschemas und Annotationstrainings (e) Überprüfung der Anwendung von Klassi- Annotator fikationsschemas (g) Einsatz von Empfehlungssystemen für ggf. Archivar (f) Entwicklung und Einsatz eines Prüfkor- Annotationsvorschläge pus für Annotatoren (g) Zusammenarbeit von Archivaren und Kunden/Nutzern (h) Visualisierung der Vertrauenswürdigkeit (h) Erhebung der Kunden/Nutzerbedürfnis- von Annotationen und Tags Nutzer/innen se und -zufriedenheit (i) Unkonventionelle Lösung: Spielbasierte der Ressourcen (i) Erhebung des Nutzerverhaltens Ansätze zur Qualitätsprüfung (j) Qualitätssicherung durch Nutzer/innen Tabelle 3: Übersicht über „soziale“ und „technische“ Qualitätssicherungsmaßnahmen bei der Annotation Im Vergleich mit der Übersicht in Tabelle 2 (s. S. 21) fällt auf, dass zum Aspekt Me- dienasset/Ressource bzw. Ersteller einer Ressource keine spezifischen Qualitäts- sicherungsmaßnahmen recherchierbar waren. Es ist anzunehmen, dass es hier je- doch in der Archivpraxis Konventionen und Prozesse gibt, die hier im Bezug auf die (spätere) Annotation von Belang sind. 22
  • 23. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche SOZIALE PROZESSE DER QUALITÄTSSICHERUNG In diesem zweiten Abschnitt beschreiben wir Qualitätssicherungsaktivitäten, die überwiegend „soziale“ Aspekte, also Aspekte im Bezug auf die beteiligten Perso- nen betreffen, in Abgrenzung zu den anschließend behandelten technischen Sys- temen und Lösungen. Natürlich ist diese Unterteilung nicht immer trennscharf, da ja Nutzer/innen die Systeme bedienen und dass die Systeme manchmal auch nur soziale Prozesse unterstützen und steuern. Dennoch zeigt diese Betonung von so- zialen Prozessen, dass zur Qualitätssicherung von Annotationen nicht nur „techni- sche Lösungen“ führen, sondern dass diese eben oft nur unterstützen. (a) Entwicklung von Klassifikationsschemas und Regelwerken Um die die Qualität von Annotationen zu erhöhen bzw. zu sichern, werden in der Medienbranche Klassifikationsschema entwickelt oder eingesetzt. Die Materialien können dann Kategorien und Unterkategorien zugeordnet werden, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten. Solche Schemas werden auch als Taxonomien bezeichnet. Ein Beispiel für eine Ta- xonomie aus der Biologie zeigt die folgende Tabelle 4. Deutsch Latein bzw. Altgriechisch Beispiel Reich Regnum Vielzellige Tiere Abteilung / Stamm Divisio / Phylum Chordatiere Unterstamm Subphylum Wirbeltiere Klasse Classis Säugetiere Ordnung Ordo Raubtiere Überfamilie Superfamilia Katzenartige Familie Familia Katzen Unterfamilie Subfamilia Kleinkatzen Gattung Genus Altwelt-Wildkatzen Art Species Wildkatze Unterart Subspecies Hauskatze Tabelle 4: Beispiel für eine Taxonomie – Auszüge aus der Biologie Quelle: http://de.wikipedia.org/wiki/Taxonomie (9.9.2011) In Unternehmen und Medienarchiven werden dazu häufig eigene Taxonomien für die eigene Bedürfnisse der Annotation und der Nutzung der Daten entwickelt. Die Entwicklung eines Klassifikationsschemas wird als eine wesentliche Maßnahme zur Qualitätssicherung der Annotation betrachtet. Das „Regelwerk Mediendokumentation“ von ARD, ORF und ZDF (2008) ist ein gu- tes Beispiel für ein branchenweites Regelwerk der Beschreibung von Medienin- halten, in diesem Falle von Fernsehproduktionen. Immer wieder überarbeitet und so konzipiert, dass Archive auch auf Entwicklungen in der Fernsehproduktion 23
  • 24. Soziale Prozesse der Qualitätssicherung (neue Formate, Genre, Technologien) eingehen können werden hier Elemente der Formalbeschreibung sowie die Bestandteile der Inhaltswiedergabe beschrieben bzw. festgelegt. Durch die Verwendung des Regelwerks werden auch archivüber- greifende Recherchen möglich. Das Regelwerk wird auch in vielen privaten Fern- sehproduktionsstätten eingesetzt. Ergänzend werden häufig auch Metadatenformate verwendet. Metadaten eines Buches sind beispielsweise die Autorennamen, die ISBN, der Verlag, der Erschei- nungsort. Metadaten sind im Gegensatz zu Webseiten meist strukturierte Daten und daher vom Computer weiterverwendbar. Im Internet bzw. der Informatik werden solche „Daten über Daten“ als Metadaten bezeichnet, die jedoch ganz un- terschiedliches beinhalten. Um einen geregelten Austausch von Daten in einem Anwendungsbereich zu verbessern oder zu erleichtern, hat man sich in vielen Be- reichen, auf genau beschriebene Metadatenformate geeinigt. Treiber dieser Be- strebungen sind vor allem Archive, welche verbunden mit der Digitalisierung ih- rer Bestände auch den Austausch ihrer Daten über Publikationen ermöglichen und vereinfachen wollten (z. B. mit Dublin Core). In der Nachrichtenindustrie macht vor allem der Zeitdruck einen reibungslosen Austausch von Nachrichten den Einsatz von Metadatenformaten wie NewsML, der bereits erwähnten IPTC NewCodes und EXIF erforderlich. Beim Web 2.0 und den sozialen Netzwerken steht die Vernetzung der Community im Vordergrund (z. B. FOAF, SIOC). Sche- ma.org18 ist das Ergebnis einer Vereinigung von Suchmaschinen-Herstellern und verfolgt das Ziel, Schemas für die Auszeichnung von Web-Seiten auf eine solche Art und Weise bereitzustellen, dass Suchmaschinen den Inhalt besser interpretie- ren (und durchsuchen) können. Dieser Ansatz fällt unter die Gruppe der „Micro- data“-Ansätze zur Anreicherung bzw. Auszeichnung von Web-Ressourcen mit se- mantischen Informationen. Die Open Annotation Collaboration (OAC) Group 19 un- terstützt die Entwicklung eines Ressourcen-zentrierten Annotationsumfelds für das Word Wide Web und hat mit den Open Annotation Core Data Model 20 im Mai 2012 ein grundlegendes Schema für die Annotation von Ressourcen vorgestellt. Eine Befragung der Semantic Web Company, an der sich mehr als 150 Personen aus 27 Ländern beteiligten, zeigt, dass der Einsatz von unternehmensinternen Thesauri verbreitet ist (vgl. Abbildung 5): Demnach wird bei rund 86 Prozent der Befragten eine Taxonomie eingesetzt, bei 39 Prozent sogar schon mehr als 10 Jah- re lang. 18 http://schema.org/ (28.08.2012) 19 http://www.openannotation.org/ (28.08.2012) 20 http://www.openannotation.org/spec/core/ (28.08.2012) 24
  • 25. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Abbildung 5: Einsatz von Taxonomien in Unternehmen und seien Dauer. Befragungsergebnisse (N=158) Quelle: Kondert, Schandl & Blumauer (2011) (b) Überprüfung des Klassifikationsschemas auf Konsistenz Bevor ein Klassifikationsschema übernommen bzw. eingeführt wird sollte es aus- reichend getestet werden. Sind alle notwendigen Kategorien und Begriffe enthal- ten? Gibt es Inkonsistenzen? Fehlen Erklärungen? Testweise sollten Dokumente von mehreren gleichzeitig annotiert werden und diese Annotationen verglichen werden: Abweichungen können auch an den unzureichenden Erläuterungen und Definitionen des Klassifikationsschemas liegen. (c) Doppelte und mehrfache Annotation Eine Möglichkeit, die Qualität der Annotationen zu sichern, besteht darin, die An- notationen doppelt oder mehrfach durchführen zu lassen – durch die gleichen Personen oder durch weitere Personen. Auch können zusätzlich (für den Ver- gleich) auch automatische Annotationen verwendet werden und Übereinstim- mungen bzw. Abweichungen mit den Annotationen kontrolliert werden. (d) Schulung von Kategorienschemas und Annotationstraining Nun genügt es natürlich nicht, ein Kategorienschema zu entwickeln: Jede/r, der Annotationen damit vornimmt muss darin entsprechend geschult sein um mög- lichst gute Annotationen zu liefern. Eine Maßnahme der Qualitätssicherung sind also Schulungen und Annotationstrainings. Diese werden über mehrere Wochen hinweg, häufig in Zusammenarbeit mit Ex- perten durchgeführt, indem Dokumente gemeinsam oder auch einzeln annotiert werden. Während des Trainings können so auch aufkommende Probleme geklärt werden (vgl. Bayerl, 2003). (e) Überprüfung der Anwendung von Klassifikationsschemas Die Anwendung des Klassifikationsschemas kann dabei in dreifacher Weise über- prüft werden (Bayerl, 2003): „Aussagen zur Qualität manueller Annotationen müssen getroffen werden hinsichtlich: 25
  • 26. Soziale Prozesse der Qualitätssicherung – Anwendung des Schemas im Sinne des vorgegebenen Standards – Übereinstimmung in der Anwendung des Schemas zwischen Annotierern (inter- individuelle Konsistenz) – Konsistenz eines Annotierers über die Zeit (intraindividuelle Konsistenz)“ So lässt sich unter anderem bewerten, ob eine „eindeutige, konsistente Zuordnung von Objekten in die Klassen des Schemas möglich ist“ (Bayerl, 2003). Dazu emp- fiehlt Bayerl (2003) die Verwendung eines Klassifikationsschemas durch ver- schiedene Personen für jeweils identische Objekte. „Erreichen diese eine überein- stimmende Zuordnung der Objekte kann davon ausgegangen werden, daß das Schema seinen Zweck der eindeutigen, wiederholbaren Klassifizierbarkeit von Objekten erfüllt (wobei hiermit allerdings noch keine Aussage über die Sinnhaftig- keit der Kategorien und Zuordnungen, d. h. die Validität des Schemas getroffen ist)“. Zusätzlich kann mit einem solchen Vergleich der Übereinstimmung mehrerer An- notatoren deren interindividuelle Konsistenz geprüft werden. Von Zeit zu Zeit er- scheint es auch sinnvoll, die Übereinstimmung der Annotationen bei gleichen An- notatoren zu überprüfen. Bei diesen Überprüfungen wird in aller Regel die Übereinstimmung (Reliabilität) als ungewichtetes Kappa (nach Cohen, 1960) berechnet. Liegt der Wert von Kappa über 0,75 wird dies in aller Regel als ausreichend betrachtet (Landis & Koch, 1977, vgl. Bayerl, 2003). Allerdings ist diese Betrachtung nicht unproblematisch – so können die Übereinstimmungen auch auf der Verwendung allgemeiner Kon- zepte und Kategorien beruhen, auch ist dadurch nicht klar, welcher von zwei An- notatoren besser annotiert. Auch wenn Kontrollmechanismen wie der Vergleich mit einer automatischen An- notation oder eine doppelte Annotation mit einem zweiten Annotierer durchge- führt werden, hängt erwartungsgemäß und auch empirisch bestätigt die Qualität und die Effektivität der Ergebnisse maßgeblich von den Erfahrungen und Qualifi- kationen der Annotierer ab (vgl. Crystal u.a., 1999). (f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren Für das Training des Kategorienschemas und der Annotation wird die Entwick- lung eines Prüfkorpus empfohlen. Dazu werden Ressourcen gewählt und von min. zwei Annotatoren annotiert, und deren Übereinstimmung geprüft. Er kann bei entsprechender Überprüfung auch den Rang eines „Goldstandards“ erhalten. Fragen aus dem Goldstandard können wiederum zur Kontrolle und zum Training von Annotatoren eingesetzt werden, beispielsweise bei der Annotation von Bil- dern (Sorokin & Forsyth, 2008). Routinierte Annotatoren werden dabei „zwi- schendurch“ zur Überprüfung und aus Trainingszwecken Elemente des Prüfkor- pus vorgelegt um dann die Übereinstimmung auszuwerten und auch um Feedback 26
  • 27. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche zu geben. Oleson u.a. (2011) haben dies beispielsweise zur Qualitätssicherung bei Annotationen mit Crowdsourcing-Angeboten gemacht. (g) Zusammenarbeit von Archivaren und Kunden/Nutzern Beim ORF werden Archivare wochenweise in Fachredaktionen platziert, arbeiten also unmittelbar und räumlich nahe mit den Kollegen zusammen, um gezielt mit den Denkweisen und Bedürfnissen der Kunden konfrontiert zu werden. (h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit Auch Nutzerbefragungen sind eine Option. Sie dienen nicht nur der Qualitätssi- cherung der Annotation, die sich ja durch die Nutzer/innen definiert, sondern kann auch ein Aspekt der Kundenzufriedenheit sein. Hierbei werden Nutzer/in- nen dazu befragt wie zufrieden sie mit den Rechercheergebnissen sind, wenn sie beispielsweise folgendes erledigen: – Suche nach Stock-Images/Videos für einen Bericht. – Suche nach einem bestimmten Dokument. – Suche nach allen Beiträgen zu einem Thema. Es ist dabei ggf. zu überprüfen, wie häufig ist solche Anwendungsfälle überhaupt sind bzw. welche Bedürfnisse Nutzer/innen überhaupt haben. Eine weitere Fragestellung ist generell, welche Anforderungen eine Annotation er- füllen muss. Neben der späterer Suche (Auffindbarkeit) können das z.B. auch Hin- weise zur bisherigen Verwendung einer Ressource sein. In einem Workshop des Salzburg NewMediaLab – The Next Generation im Mai 2011 wurde darauf auf- merksam gemacht, dass es Redakteure, wenn sie beispielsweise eine Landschafts- aufnahme suchen, nicht unbedingt eine Videosequenz erhalten wollen, die schon sehr oft von Kollegen gefunden bzw. ausgewählt wurde. (i) Erhebung des Nutzerverhaltens Konkret auf die Annotation bezogen sollte auch der Frage nachgegangen werden, inwiefern sich das Beschlagwortungssystem der Experten mit dem des End-An- wenders deckt und zusammenpasst, sofern es nicht dieselben Personen sind. Ne- ben Befragungen können auch Log-Dateien hier zur Auswertung hinzugezogen werden (Wonach suchen Nutzer/innen? Was finden sie/ was finden sie nicht?). 27
  • 28. Soziale Prozesse der Qualitätssicherung 28
  • 29. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche TECHNOLOGISCHE UNTERSTÜTZUNG DER QUALITÄTSSICHERUNG Im diesem Abschnitt wird gezeigt, wie Technologien die Qualitätssicherung von der Annotationsprozesse unterstützen. Dabei greifen wir einige Aspekte auf, die bereits im vorherigen Abschnitt konzeptionell beschrieben wurden und illustrie- ren hier auch mit Hilfe von konkreten Screenshots von Produkten, wie sie unter- stützt werden. (a) Unterstützung bei der Erstellung und beim Management von Kategori- enschemas (Taxonomien) Bei der Erstellung eines unternehmensinternen Kategorienschema bzw einer Ta- xonomie helfen Werkzeuge, die diesen Prozess gezielt unterstützen. Die Semantic Web Company ist Partner des Salzburg NewMediaLab und bietet mit ihrem Pro- dukt „PoolParty21“ ein entsprechendes Werkzeug an. Hier können übersichtlich Taxonomien entwickelt, erstellt und verwaltet werden (vgl. Abbildung 6). Abbildung 6: Taxonomieerstellung mit Poolparty. Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/ (7.10.2012) Den technischen Aufbau von Poolparty und seinem Thesauri-Management wird in folgender Abbildung 7 beschrieben. 21 http://poolparty.biz/ (28.08.2012) 29
  • 30. Technologische Unterstützung der Qualitätssicherung Abbildung 7: Thesaurimanagement mit Poolparty. Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/(10.10.2012) (b) Steuerung des Annotationsprozess Das Management der Annotationsprozesse, beispielsweise die Zahl der Annotato- ren pro Ressource oder ob Annotatoren auch die Annotation ablehnen können, wird ebenfalls durch Technologien unterstützt und liefern somit einen Beitrag zur Qualitätssicherung. Beim Werkzeug „Teamware“, mit dem kollaborativ annotiert werden kann schaut das entsprechende Interface folgendermaßen aus (siehe Ab- bildung 8). Abbildung 8: Annotationsmanagement mit Teamware. Quelle: http://gate.ac.uk/teamware/ (10.11.2011) 30
  • 31. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Wie solche Prozesse optimal gestaltet werden können zeigt nicht nur die Erfah- rung sondern ist auch Gegenstand empirischer Untersuchungen. So stellen Vond- rick u.a. (2012) fest, dass es beim Annotieren von Videos sinnvoll ist (weil effizi- enter) wenn in jedem Frame nur ein Ding markiert und beschrieben wird. (c) Vergleich der Annotationen und Bereinigung bei Mehrfach-Annotation Es wurde bereits beschrieben, dass es der Qualitätssicherung dient, wenn man die Annotationen unterschiedlicher Personen derselben Ressource miteinander ver- gleichen kann. Beim Werkzeug „Teamware“ werden entsprechende Kalkulationen von Kappa automatisch durchgeführt und können Fehlermeldungen an das Anno- tations-Management verschicken (siehe Abbildung 9). Abbildung 9: Annotationsvegleich bei Teamware. Quelle: http://gate.ac.uk/teamware/ (10.11.2011) (d) Qualitätsprüfung mit Hilfe automatischer Annotationen Automatische Annotationen können auch zum Einsatz kommen, um die Annota- tionen eines einzelnen Annotators zu prüfen. Sehr häufig werden Ressourcen nämlich nicht von mehreren Personen annotiert, so dass hier Vergleiche möglich wären. Lässt man eine Ressource – sofern es eine geeignete automatische Annota- tionsunterstützung gibt – automatisch annotiert, kann man davon ausgehen, dass Übereinstimmungen der automatischen Annotation und des Annotators für „kor- rekte“ Annotationen sprechen. Abweichungen können jedoch als mögliche Signale für qualitative Mängel betrachtet werden. Auf alle Fälle ist ein solche Vorgehen, dass die Abweichungen von den automatischen Vorschlägen prüft effektiver als die kompletten Annotationen „per Hand“ zu überprüfen (siehe Huang u.a., 2008). Ein solches Verfahren, dass von Safadi u.a. (2012) vorgestellt wird wird als „Active Cleaning“ bezeichnet wird. Hierbei werden, sofern – z.B. auch automatisch gene- rierte – Annotationen vorhanden sind, diejenigen gewählt, die die höchste Qualität aufweisen. Ihnen gelingt auch an einem Testdatensatz der Nachweis, dass nach ei- ner solchen Reinigung auch tatsächlich zur Verbesserung führt. Ähnlich bereini- 31
  • 32. Technologische Unterstützung der Qualitätssicherung gen Vittayakorn & Hays (2011) so Annotationen von Bildern, die durch Crowd- sourcing entstanden sind. (e) Monitoring des Annotationsprozess Qualitätssicherungsmaßnahmen sind auch solche, die aktuelle Prozesse in Form von Kennzahlen monitoren und ausweisen. Auch hier bieten Werkzeuge Unter- stützung, zur Illustration ist hier ein Screenshot von Teamware eingefügt (siehe Abbildung 10). Abbildung 10: Monitoring bei Teamware. Quelle: http://gate.ac.uk/teamware/ (10.11.2011) (f) Qualitätssicherung mit und von (semi-) automatischen Annotationen Automatische Annotationen oder auch Empfehlungen für Annotationen können allgemein als Unterstützung von Annotationsprozessen betrachtet werden. Es gibt eine Reihe von Automatisierungstechniken, die bei der Annotation zum Einsatz kommen, die auch als Qualitätssicherungsmaßnahmen betrachtet werden können. Semi-automatische Annotationen sind dabei Verfahren, die manuell überprüft werden, es gibt jedoch auch Systeme, die allein auf automatische Verfahren ange- wiesen sind. Bei der Beschreibung von Automatisierungstechniken könnte etwa unterschieden werden: Sicherstellung von einheitlichen Schreibweisen, Erleichterung bei der Auswahl von Vokabular (Vorschlag/Navigation), Hilfestellung bei der Beschrei- bung des Inhalts (z.B. Hintergrundinformation zu Themen wie den Teilnehmern bei Events), die Auflösung von Mehrdeutigkeiten (Disambiguierung), Bild-Extrak- tion, Text-Transkriptionen, Erleichterung beim Hinzufügen von neuen Kategorien zu bereits annotierten Assets, Hilfestellung nach der Annotation (z.B. Anreiche- rung mit Überkategorien). 32
  • 33. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Diese automatisierten Annotationen bzw. Vorschläge dafür können dabei auch aus von Webmaterialien oder simplen Nutzerkommentaren generiert werden. Yama- moto und andere (2008) versuchen so Kommentare in Bulletin Boards und We- blogs zu Videos auszuwerten, um daraus Annotationen zu entwickeln. Zhang u.a. (2008) versuchen ähnliches mit Vlogs (also Video-Weblogs). Belhajjame u.a. (2006) untersuchen, inwieweit Webservices automatisch annotiert werden kön- nen. Sie stellen fest, dass auch rudimentäre existierende Informationen als Anno- tationsvorschläge die (professionelle) Annotation erleichtern können. Andere Forschungsgruppen haben ähnliche Untersuchungen erstellt, dabei variieren Da- tenquellen und Auswertungsverfahren. In einem bereits erschienenen Band der Linked Media Lab Reports (Schön und an - dere, 2011) wurden Verfahren zusammengetragen, mit denen wiederum die Qua- lität von Annotationsvorschlägen überprüft werden kann. Da sich diese auf „auto- matische“ Annotationen bzw. Annotationsvorschläge beziehen, lassen sich diese Verfahren – wie im folgenden geschehen – leicht auf die Qualitätsüberprüfung von automatischen Annotationsverfahren übertragen: Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol- genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe- rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in- nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten: (1) Befragung von Experten zur Qualität der empfohlenen Annotationen, (2) direkter Vergleich der Annotationsempfehlungen durch Befragung von Experten, (3) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An- satz), (4) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations- vorschlägen) sowie (5) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor- schlägen. Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis- tierende Datensätze genutzt werden können. (6) Vergleich der Annotationen von Experten und mit den Annotationen, die das System vorschlagen würde, sowie (7) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten. Die Verfahren werden detailliert bei Schön und andere (2011) beschrieben. 33
  • 34. Technologische Unterstützung der Qualitätssicherung (g) Einsatz von Empfehlungssystemen für Annotationsvorschläge Empfehlungssysteme für Annotationen werden immer häufiger eingesetzt, um den Prozess der Annotation zu vereinfachen und auch um sie zu verbessern 22. Empfehlungssysteme für Annotationen beruhen dabei auf ganz unterschiedlichen Quellen und Verfahren (vgl. Schön, Kurz u.a., 2011). Wie allgemein bei Empfeh- lungssystemen gibt es auch bei den Empfehlungen von Annotationen zwei Verfah- ren: das inhaltsbasierte Filtern und das kollaborative Filtern. Werden Empfehlun- gen für Annotationen gegeben, wird in der Regel das inhaltsbasierte Filtern einge- setzt, dabei beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Hier kommen häufig Verfahren der Datenextraktion zum Ein- satz, oft wird dabei auch auf Thesauri zurückgegriffen. Es gibt aber auch Ansätze bei Empfehlungen von Annotationen, bei denen kollaboratives Filtern (engl. „Col- laborative Filtering“) eingesetzt wird: z.B. werden bei Delicious23 häufig verwen- dete Tags vorgeschlagen. Auch gibt es vielfach personalisierte Vorschläge („be- reits verwendete Tags“). Es gibt mehrere bereits im letzten Absatz skizzierte Verfahren, die grundsätzlich zur Verfügung stehen, um die Qualität von Empfehlungen für Annotationen und entsprechender Systeme zu bewerten (siehe Schön, Kurz u.a. 2011). Diese Strate- gien der Evaluation von Annotationsempfehlungen sind jedoch bisher teils noch gar nie, oder nur selten, eingesetzt worden. Eine interessante Maßnahme zur Qualitätssicherung von Annotationen bzw. zur Qualitätsverbesserung der Annotationsempfehlungen möchten wir exemplarisch vorstellen: Empfehlungsalgorithmen für Annotationen können nämlich – ganz sel- ten – auch durch den Nutzer beeinflusst werden. Mit der ALOE-Plattform wird derzeit versucht, eine Schnittstelle zu entwickeln, die es Nutzern erlaubt, selbst die Regeln für die Erstellung der Tag-Vorschläge zu steuern. Wie die Abbildung der derzeitigen Nutzeroberfläche zeigt (s. Abbildung 11. S. 35), kann beispielswei- se vom Nutzer festgelegt werden, ob Tag-Vorschläge aus dem Tagging-Verhalten aller ALOE-Nutzer generiert werden sollen, oder ob nur Kontakte einbezogen werden sollen. 22 Wir haben bereits ausführlich Empfehlungssysteme für Annotationen vorgestellt und diskutiert, wie man die Qualität ihrer Empfehlungen bewerten kann (Schön, Kurz u.a. 2011). 23 http://delicious.com/ (28.08.2012) 34
  • 35. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge. Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688 (h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags Wenn Systeme auf Social Tagging aufbauen, haben sie mit dem Cold-Start-Pro- blem zu kämpfen: Solange keine Tags vorhanden sind, sind entsprechende Doku- mente z. B. über entsprechende Suchfunktionen nicht auffindbar. Um dieses Pro- blem zu entschärfen, werden automatische Tags vergeben, die beispielsweise durch Methoden des Text-Mining (siehe Abschnitt zu Texten) ermittelt werden. Diese automatischen Tags können also auch fehlerhaft oder unsinnig sein. Im Pro- jekt „InterEDU“ des Salzburg NewMediaLab wurde daher ein System der Quali- tätssicherung eingeführt um automatische Tags und Tags der Lehrer unterschei- den zu können. Zu diesem Zweck wurde folgende Markierung der Lernmaterialien eingeführt: – Wolken kennzeichnen Lernmaterialen, denen automatisch Tags zugewiesen wurden, die also auf statistischen Analysen beruhen und fehlerhaft sein können. – Wolken mit einer durchbrechenden Sonne markieren Lernmaterialien, bei de- nen ein beliebiger Nutzer bereits eigene Tags ergänzt hat (und ggf. die automa- tisch ermittelten übernommen hat). 35
  • 36. Technologische Unterstützung der Qualitätssicherung – Eine Sonne haben schließlich die Lernmaterialien, wenn ein Administrator oder Gegenstandsbetreuer das Lernmaterial über eine spezielle Schaltfläche freigege- ben hat. Jede weitere Bearbeitung führt wieder zur vorherigen Stufe (Wolken mit durchbrechender Sonne), so dass das Lernmaterial einer erneuten Freigabe durch einen Administrator oder Gegenstandsbetreuer bedarf. Statt der Wolken bzw. der Sonne sind alternativ auch Darstellungen von Ver- kehrsampeln denkbar. Nicht immer ist so eine relativ rigide Kontrolle der Qualität von Tags notwendig, wie es im Falle der Lernressourcen in diesem Projekt erwar- tet wurde. Aber es zeigt sich an diesem Beispiel, dass auch hier die Qualität von Social-Tagging-Systemen noch erhöht werden kann. (i) Spielbasierte Ansätze zur Qualitätsprüfung Um im größeren Umfang Tags zu Bildern zu erhalten, entwickelten kreative Köpfe das ESP-Game (www.espgame.org, von Ahn & Dabbish, 2004). Die Spielidee liegt darin, dass Spieler zu Bildern Tags eingeben, von denen sie annehmen, dass sie auch von anderen Nutzern verwendet werden und je nach Übereinstimmung Punkte erhalten. Dabei hat sich gezeigt, dass schnell allgemeine Tags verwendet werden, so dass diese Worte inzwischen ausgeschlossen werden, was das Spielen jedoch nicht weniger spannend macht, sondern eher noch herausfordernder. Die Idee des ESP-Spiels wurde inzwischen von anderen aufgegriffen. So hat Google den „Google Image Labeler“ implementiert und erhält durch dessen Spieler viele Metainformationen über Bilder. Auch wurde die Spielidee auf andere Medien übertragen (z.B. auf Musikstücke: „Tag a Tune“, via www.espgame.org). Hier wer- den Musikstücke vorgespielt, die getaggt werden sollen. Andere wiederum entwi- ckelten daraus ein Spiel (und Patent), das auf einem horizontalen Display gespielt wird (Diakopoulos & Chiu, 2007). Nun stellt sich die Frage, ob solche Spielideen nicht auch zur Qualitätssicherung von Annotationen in Medienarchiven eingesetzt werden könnten. Eine Möglich- keit wäre, dass Spieler Punkte für übereinstimmende Annotationen erhalten, Ab- weichungen aber tatsächlich auch zur Kontrolle der Annotation verwendet wer- den. Im Kompetenzzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge- neration“ wurde von der Universität Innsbruck das Spiel „TubeLink“ entwickelt und evaluiert24, das auf dem „Wisdoms Of A Crowd“-Ansatz beruht: Mehrere Spie- ler geben unabhängig voneinander Antworten zur gleichen Problemstellung. Bei TubeLink ordnen die Spieler aus einer Menge vorgegebener (passender und un- passender) Begriffe einem Video jene Begriffe zu, die sie für passend halten, z.B. ein Begriff für etwas, was in dem Video abgebildet ist, oder eine Stimmung, die sie mit dem Video assoziieren. 24 Die folgenden Ausführungen stammen von Michael Thaler, STI Innsbruck 36
  • 37. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Quelle: TubeLink (Stand 10.12.2011) Aus der Gesamtsicht der zugeordneten Begriffe aller Mitspieler erhält man nun nicht nur eine Auswahl von mehrheitlich als passend betrachteten Annotationen, sondern die Annotationen werden auch – mit einer gewissen „Unschärfe“ – auf der Zeitleiste des Videos angeordnet. Die dahinterliegende Annahme ist, dass beim Heranziehen mehrerer Antworten zur gleichen Problemstellung das Ergeb- nis zum richtigen konvergiert (d.h. qualitativ besser ist als eine Einzelbeurtei- lung). Die Umsetzung bzw. Evaluation des Spiels und seiner Ergebnisse zeigt, dass es sich nicht als trivial erweist, den spielerischen Ansatz umzusetzen: Die Auswer- tung der Antworten ist verhältnismäßig einfach. Ein Spiel zu entwickeln und eine konstante Anzahl an Spieler zu erhalten, hat sich jedoch als schwierig erwiesen. Hier alleine Punkte zu vergeben erscheint zu wenig um hier wiederkehrende Spie - ler zu finden. Quelle: TubeLink (Stand 10.12.2011) 37
  • 38. Technologische Unterstützung der Qualitätssicherung Die Idee, mit spielerischen Ansätzen Annotationen für Videos zu erhalten und die Qualität der so erhaltenen Annotationen zu bewerten und zu sichern wird auch an anderer Stelle im Rahmen eines Dissertationsvorhabens erprobt (s. Gligorov & Schreiber, 2012) und geplant (Riek u.a., 2011) 25. (j) Qualitätssicherung auf Seiten der Nutzer/innen Gerade wenn es sich um nutzergenierte Daten und Anmerkungen handelt und nicht immer ganz klar ist, wie vertrauenswürdig diese sind, können auf Seiten der Nutzer/innen Werkzeuge eingesetzt werden, die eine entsprechende Auswahl möglich machen. Abbildung 14: Annotationsformen bei Videolyzer Quelle: Diakopoulos & Essa, 2008, figure 3 25 Vergleiche dazu auch das Projekt „Waisda?“: 2009 wurde von Forschern der VU Univer- sität Amsterdam im Rahmen des europäischen Forschungsprojekts PrestoPRIME ein Vi- deo-Annotations-Spiel gestartet, bei dem die Mitspieler aufgefordert wurden, mit Be- grifen zu annotieren, was sie sehen und hören: http://imagesforthefuture.com/en/rese- arch/waisda-video-labeling-game-evaluation-report (2012-11-26) 38
  • 39. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Ein Beispiel dafür, wie Nutzer/innen selbst bei der Qualitätssicherung mitwirken könnten, ist der Forschungsprototyp Videolyzer 26, bei dem politisch Interessierte Videos zu politischen Themen annotieren können und jeweils die Annotationen anderer annotieren können (Diakopoulos & Essa, 2008). Die Abbildung 14 zeigt, welche Annotationen so im Einzelnen möglich sind. In diesem und weiteren ähnlichen Forschungsprojekten geht es also letztlich dar- um, Aussagen über die Vertrauenswürdigkeit der Annotationen zu erlangen: Dar- aus ergibt sich als weiteres Forschungsgebiet die Möglichkeiten (automatisch) einschätzen zu können, wie vertrauenswürdig Annotationen sind. Ceolin u.a. (2010) untersuchen beispielsweise, mit welchem Verfahren professionelle Anno- tationen (von naturwissenschaftlichen Museen) die höchsten Vertrauenswürdig- keit-Bewertungen erhalten und mit geringer Fehlerwahrscheinlichkeit als ver- trauenswürdig identifiziert werden. Solche Erfahrungen könnten später genutzt werden, um gute und schlechte externe Annotatoren und ihre Annotationen kor- rekt einordnen zu können. Ein weiteres gutes Beispiel, vor allem eines, das tatsächlich im großen Umfang ge- nutzt wird, ist die Qualitätssicherung beim OpenStreetMap-Projekt.27 Im Open- StreetMap Projekt28 wird das Ziel verfolgt freie geographische Daten zu erfassen und allen Benutzern kostenfrei zur Verfügung zu stellen. Die Daten werden welt- weit von freiwilligen Nutzern erfasst und editiert. Zu den einzelnen geographi- schen Daten können zusätzliche Eigenschaften (Map Features) in Form von Schlüsseln (Tags) und Werten (Values) gespeichert werden. OpenStreetMap lässt prinzipiell alle möglichen Tags und Values zu. Um die Anwendung der freien Geo- daten zu erleichtern wird von der Community ein Leitfaden für die Erfassung und Bearbeitung der Map Features vorgeschlagen. Dieser Leitfaden ist im OpenStreet- Map-Wiki29 dokumentiert. Das Wachstum der Anzahl der Nutzer/innen und damit einhergehend auch des Datenbestandes ist in den letzten Jahren groß (siehe Abbildung 15). Eine große Herausforderung für die Zukunft der OpenStreetMap ist die Vervollständigung, Wartung und Verbesserung der Daten. Damit wird auch ein Schwerpunkt auf die qualitative Verbesserung der Daten gelegt. 26 http://www.videolyzer.com/ (2012-08-23) 27 Autor der OSM-Beschreibung: Sven Leitinger, Salzburg Research Forschungsgesellschaft 28 http://www.openstreetmap.org (2011-12-12) 29 http://wiki.openstreetmap.org/wiki/DE:Map_Features (2011-12-12) 39
  • 40. Technologische Unterstützung der Qualitätssicherung Quelle: OpenStreetMap Contributors, License: CC-BY-SA 2.0, http://wiki.openstreetmap.org/wiki/File:Osmdbstats1.png (26.11.2012) Die Qualitätssicherung in OpenStreetMap erfolgt durch die Community selbst. Die Datenqualität kann in folgende Teilbereiche unterschieden werden: geometrische Qualität, Qualität der Map Features und die Qualität des Abdeckungsgrades. Um die geometrische Qualität und die Qualität des Abdeckungsgrades zu verbessern existieren bereits verschiedene Werkzeuge zur allgemeinen Meldung von Fehlern, spezielle Karten zur Fehlersuche, Werkzeuge zur Überprüfung von Wegen und Relationen für die Erstellung von Routing-Graphen30. Diese Werkzeuge wurden vor allem für den Einsatz auf desktop-basierten Systemen entwickelt. Dazu ist es in vielen Fällen nicht notwendig die Daten im Feld zu erfassen und zu verbessern, sondern die Datenqualität über die zu Hilfenahme von freien Luft- und Satelliten- bildern zu verbessern. Für die Verbesserung der Map Features ist es hingegen notwendig die Daten vor Ort zu verbessern. Bis jetzt gibt es nur wenige mobile Anwendungen zur Erfas- sung und Verbesserung von OpenStreetMap-Daten auf mobilen Endgeräten wie Smartphones oder Tablet PC. Mit der freien mobilen Applikation „OSMapTuner“ können in Zukunft vor Ort die einzelnen Map Features und deren Tags und Values anhand des OSM-Wikis validiert werden und fehlende bzw. fehlerhafte Daten ver- 30 http://wiki.openstreetmap.org/wiki/Qualitätssicherung (2011-12-12) 40
  • 41. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche bessert werden (siehe Abbildung 16). Der OSMapTuner wurde im März 2012 für alle OpenStreetMap-Benutzer weltweit auf Google play bereitgestellt31. (rechts) Signalisierung von fehlenden Tags durch die automatische Tag-Validierung. Diese können durch Auswahl geändert werden. Quelle: Salzburg Research 31 https://play.google.com/store/apps/details?id=at.srfg.osmaptuner (28.08.2012) 41
  • 42. Technologische Unterstützung der Qualitätssicherung 42
  • 43. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche DER EINSATZ UND ERFAHRUNGEN MIT QUALITÄTSSICHERUNG VON ANNOTATIONEN IN MEDIENARCHIVEN Neben unserer allgemeinen Übersicht waren wir interessiert daran, auch tiefere Einblicke in die Praxis der Qualitätssicherung von Annotationen in Medien- archiven zu erlangen. Wir haben dazu Ausführungen vom Österreichischen Rund- funk (ORF), Dokumentation und Archive, sowie vom Archivar des Privatsenders Servus TV erhalten. Qualitätssicherung der Annotation in der täglichen Praxis des ORF-Fernseharchives32 Zweck der Annotation im ORF-Fernseharchiv ist grundsätzlich einerseits die voll- ständige Dokumentation der Fernsehinhalte und andererseits die rasche Wieder- auffindbarkeit und weitere Nutzung der Inhalte durch Redakteure und Archivmit- arbeiterinnen und -mitarbeiter. Viele Archivmitarbeiterinnen und -mitarbeiter sind in beiden Bereichen tätig – sowohl in der Auswertung als auch in der Recher- che. Es existiert ein gemeinsamer „Wortschatz“. Annotateure wissen, wonach re- cherchiert wird, Rechercheure wissen, wie annotiert wurde. Im Gegensatz zu Da- tenbanken und Suchmaschinen mit einer breiten User-Nutzung, die auch eine große Diversität der Annotation notwendig machen, gibt es für das ORF-Fernse- harchiv sehr klare Auswertungsrichtlinien, eine Einschulung von Annotateuren sowie eine (derzeit eher oberflächliche) Kontrolle der Annotationen. Auswertungsrichtlinien Wichtigstes Instrument der Qualitätssicherung der Annotation ist das von einigen Archivmitarbeiterinnen und -mitarbeitern in einer Arbeitsgemeinschaft zusam- mengestellte, sogenannte „Musterbuch“. Diese schriftlich festgehaltenen Auswer- tungsrichtlinien dienen einer möglichst einheitlichen Formulierung bei der inhalt- lichen Erschließung von Dokumenten – Grundlage für eine rasche und zielführen- de Recherche. Ergänzungen und Aktualisierungen zu den Richtlinien sind dabei notwendig und durchaus erwünscht. Im Musterbuch festgeschrieben sind – entsprechend den Auswertungsfeldern der im ORF genutzten Archivdatenbank „FESAD“ – Richtlinien zur Titelansetzung, zur Personenangabe, zum Sachinhalt einer Sendung/eines Beitrages, zur Bildbe- schreibung sowie zu geografischen Angaben. Der Sachinhalt eines Dokumentes soll in knapper, prägnanter, journalistischen Ansprüchen genügender Weise – analog einer Zeitungs- bzw. Agenturmeldung – 32 Autoren: Mag. Andrea Wolfinger / Redakteurin Dokumentation / ORF – Dokumentation & Archive – FZ2, Text zu „Einschulung neuer Annotateure“: B.A. Michael Vielhaber M.P.O.S. / Redakteur Dokumentation / ORF – Dokumentation & Archive - FZ2) 43
  • 44. Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in Medienarchiven in ganzen Sätzen formuliert sein, zum Verständnis wichtige Informationen enthal- ten und für künftige Recherchen relevante Zentralbegriffe beinhalten. Im Feld Bildinhalt erfolgt eine mit Stichworten frei formulierte Motivbeschrei- bung unter Verwendung von Synonymbegriffen (z.B. Flugzeug, Passagiermaschi- ne, Boeing 737, Lufthansa-Maschine,…) und unter Berücksichtigung der gestalteri- schen Wiederverwertbarkeit der Bilder und deren sinnvoller Abfragbarkeit. Wichtigste Orientierungshilfe für die Bildbeschreibung stellen die im Musterbuch festgelegten Motivparameter dar. Sie dienen der Vereinheitlichung von Standard- situationen, um einerseits die Motivbeschreibung zu erleichtern und andererseits die Suche und Wiederverwertbarkeit der Inhalte zu erleichtern. Im Anschluss an die Auflistung der Motivparameter erfolgt eine genaue Definition mit Beispielen aus der Annotations-Praxis (vgl. Abbildung 17). STRASSENSZENE Der Motivparameter STRASSENSZENE wird für typisches Straßenleben (Atmo) einer Stadt/eines Ortes verwendet. Ländertypische bzw. nicht zuordenbare Straßenszenen können (zusätzlich) auch mit STRASSENSZENE-Land/Region bezeichnet werden. Außer- dem können genauere Beschreibungen in runder Klammer ergänzt werden. STRAS- SENSZENE- wird immer vorgestellt, der Hauptsuchbegrif mit Bindestrich angefügt. Mehrere Einstellungen werden mit div. STRASSENSZENE- angegeben. BEISPIEL: STRASSENSZENE-Belgrad (Winter) STRASSENSZENE-London (Regen, PKW-Verkehr, Passanten) STRASSENSZENE-Rajasthan (STRASSENSZENE-Indien) PLURAL: div. STRASSENSZENE-Osteuropa Abbildung 17: Auszug aus dem Musterbuch des ORF, Beispiel „Strassenszene“ Quelle: ORF Geografische Angaben zu einer Sendung/einem Beitrag werden ebenfalls nach im Musterbuch festgelegten formalen und inhaltlichen Kriterien (z.B. Reihung, Tren- nung, Großschreibung, Abkürzungen) gemacht. Eine Werteliste, wie sie im bis Ende 2008 verwendeten Archiv-System „FARAO“ angeboten wurde und die für Staaten eine einheitliche Ansetzung erzwungen hat, existiert in FESAD nicht mehr und stellt in diesem Zusammenhang auch eine Schwächung der Qualitäts- sicherung dar. Fehlerhafte Schreibweisen werden nicht mehr zurückgewiesen. Zusätzlich zu den eben genannten Freitextfeldern (z.B. Titel, Personen, Sachinhalt, Bildinhalt, Indexat Geo) bietet FESAD aber in anderen Bereichen die Möglichkeit einer inhaltlichen Erschließung über Wertelisten. So kann der Inhalt einer Sen- dung/eines Beitrages oder der gestalterische Aufbau durch die Auswahl zutref- fender Begriffe aus einer entsprechenden Werteliste klassifiziert werden. Wobei die Auswahl mehrerer Begriffe möglich und meist auch notwendig ist. 44
  • 45. QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche Der Bestand der inhaltlichen Sachbegriffe wurde im Laufe der Jahre erweitert. Die Verwendung der Sachbegriffe ist somit nicht konsistent. Die Einführung bzw. Auf- lösung eines Begriffes entwickelt sich aus der täglichen Arbeit. Bei der Auswer- tung und bei der Recherche können durch neue Themenschwerpunkte neue Sach- begriffe erforderlich werden. Andere früher durchaus verwendete Begriffe wer- den obsolet. Im Laufe der Zeit wurden die Schlagworte auch vereinfacht oder mo- difiziert. Im Musterbuch folgt auf die Auflistung der Sachbegriffe (Schlagworte) wieder eine genaue Definition mit Beispielen aus der Annotations-Praxis (vgl. Abbildung 18). EHRUNG Preisverleihung, Auszeichnung, Medaillen-Verleihung,... im Bereich Kunst, Kultur, Sport, Unterhaltung, Wirtschaft, Wissenschaft, Soziales usw. BEISPIEL: Historiker Saul Friedländer erhält Bruno-Kreisky-Preis EHRUNG; HISTORIE; KULTUR; PR; WISSENSCHAFT Oscar-Verleihung EHRUNG; KULTUR; MEDIEN; UNTERHALTUNG Siegerehrung nach Weltcup-Slalom EHRUNG; INTERNATIONAL; SPORT Rot-Kreuz-Mitarbeiter werden für ihren Einsatz geehrt EHRUNG; EXEKUTIVE; SOZIALES Abbildung 18: Auszug aus dem Musterbuch des ORF, Beispiel „Ehrung“ Quelle: ORF Die Auswertungsrichtlinien stellen eine unabdingbare Voraussetzung für die gleichbleibend hohe Qualität der Annotation dar. Sie sind auch wichtigster Be- standteil der Einschulung neuer Annotateure. Einschulung neuer Annotateure In einem ersten Schritt werden neue Annotateure mit einer der wesentlichsten Herausforderungen der audiovisuellen Inhaltserschließung für ein produzieren- des und produktionsunterstützendes Fernseharchiv konfrontiert, nämlich jener der subjektiven Wahrnehmung. Der Umstand, dass audiovisuelle Eindrücke nicht neutral, sondern subjektiv wahrgenommen und verarbeitet werden, stellt ein ve- ritables Problem dar, da die Dokumentation der Eindrücke auch entsprechend in- dividuell variiert. Es gilt daher, ein entsprechendes Problembewusstsein zu schaf- fen. Das passiert, indem neue Annotateure gebeten werden, eine Sequenz von drei bis vier Einstellungen bzw. etwa 15-25 Sekunden Dauer bildinhaltlich zu erfassen. Der genaue Arbeitsauftrag lautet: „Verschriftlichen Sie bitte, was Sie nun sehen“. Daraufhin wird den künftigen Archivmitarbeitern eine audiovisuelle Sequenz vor- geführt. Wenn in weiterer Folge die unterschiedlichen Auswertungen besprochen werden, wird transparent, dass niemand das exakt selbe Motiv wahrgenommen 45