Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

QUALITÄTSSICHERUNG
BEI ANNOTATIONEN
und technologische Verfahren
in der Medienbranche

Sandra Schön und Georg Güntner

unter Mitwirkung von Jean-Christoph Börner, Sven Leitinger,
Marius Schebella, Andreas Strasser, Stefan Thaler,
Michael Vielhaber und Andrea Wolfinger

Das Kompetenzzentrum für Neue Medien, Salzburg
NewMediaLab – The Next Generation (SNML-TNG)
arbeitet unter der Koordination der Salzburg Research
Forschungsges.m.b.H. daran, digitale Inhalte zu personali-
sieren, für alle auffindbar zu machen und nachhaltig zu
nutzen: Dazu werden Informationen auf der Ebene der In-
halte (Linked Content), der stukturierten Daten (Linked
Data) und der sozialen Interaktion (Linked People) ver-
knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me-
dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe-
tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit-
teln des BMWFJ, des BMVIT und des Landes Salzburg.
Homepage: www.newmedialab.at

© Salzburg NewMediaLab – The Next Generation – November 2012

ISBN 978-3-902448-32-3

Sandra Schön, Georg Güntner, Jean-Christoph Börner, Sven Leitinger,
Marius Schebella, Andreas Strasser, Stefan Thaler, Michael Vielhaber
und Andrea Wolfinger:

Qualitätssicherung bei Annotationen.
Soziale und technologische Verfahren in der Medienbranche.

Band 5 der Reihe „Linked Media Lab Reports“,
herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert

Verlag und Herstellung: Salzburg Research, Salzburg
Umschlaggestaltung: Daniela Gnad, Salzburg Research

Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikation
in der Deutschen Nationalbibliografie; detaillierte bibliografische
Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Vorwort
Das Kompetenzzentrum für Neue Medien agiert als Denkfabrik für innovative
Konzepte und Lösungen für die österreichische Medien- und Content-Industrie
und bietet Technologieanbietern und den Betreibern von Internet-Plattformen
eine Heimat zur Entwicklung und Erprobung innovativer Informationsarchitek-
turen. Gemeinsam mit führenden Vertretern der Medien- und Content-Industrie
wurden dabei von Beginn an konkrete Lösungen entwickelt und erfolgreich umge-
setzt.
Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia-
Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in
der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im
Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des
Semantic Web erstmals die Bedeutung von Inhalten auch für Computer-
programme begreifbar zu machen. In dieser Zeit arbeitete das Salzburg New-
MediaLab an der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Ver-
wendungsbereich automatisch anpassen.
Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die
Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte
Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler
Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da-
ten und von Akteuren bzw. auf deren sozialen Interaktion mit den Inhalten be-
ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes
der Akteure bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene
Anwendungen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung
personalisierter Inhalte zu reduzieren.
Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter
der Koordination der Salzburg Research Forschungsgesellschaft führende öster-
reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG, Salz-
burger Nachrichten, derStandard.at) und Softwarehäuser (mediamid, Semantic
Web Company, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von For-
schungseinrichtungen im Bereich der Multimedia-Technologien, des Semantic
Web und der sozialen Medien (Studiengang MultiMediaTechnology der FH Salz-
burg, Semantic Technology Institut der Universität Innsbruck, Salzburg Research).
Im Rahmen der Forschungsarbeiten beschäftigen wir uns schwerpunktmäßig mit
Fragestellungen zur unternehmensweiten Suche („Semantic Enterprise Search“)
und mit Verfahren zur Annotation von Unternehmens-(Daten-)Ressourcen. Dabei
spielt die Qualitätssicherung bei Annotationen eine zunehmend wichtige Rolle,
weil die Qualität der Annotationen – gerade im Bereich der audiovisuellen Medi-
en, wo automatische inhaltsbasierte Analyseverfahren noch keine befriedigenden
Ergebnisse liefern – eine wichtige Voraussetzung für die Qualität der Suchergeb-
nisse ist.

Wir hoffen, mit diesem fünften Band der „Linked Media Lab Reports“ einen gelun-
genen Einblick in die Möglichkeiten der Qualitätssicherung von Annotationen zu
geben.
Auch im Namen von Sandra Schön bedanke ich mich dabei herzlich bei unseren
Partnern und Ko-Autorinnen und Autoren, namentlich Dipl-Infowiss. Jean-Chri-
stoph Börner (Leiter Mediendokumentation und TV-Archiv ServusTV), MSc. Sven
Leitinger (Salzburg Research) Dr. Andreas Strasser (Salzburg Research), Stefan
Thaler (ehemals STI Innsbruck), Mag. Andrea Wolfinger (Redakteurin Dokumen-
tation / ORF – Dokumentation & Archive – FZ2) sowie B.A. Michael Vielhaber
M.P.O.S. (Redakteur Dokumentation / ORF – Dokumentation & Archive – FZ2).
Herzlichen Dank auch an MSc. Marius Schebella (FH Salzburg) für seine Hinweise
und Verbesserungsvorschläge!
Georg Güntner
www.newmedialab.at
Zentrumsleiter
November 2012

Inhaltsverzeichnis

Einleitung und Hintergrund........................................................................... 7
Einleitung................................................................................................. 7
Hintergrund.............................................................................................. 8
Annotationen: Entstehung und Einsatz.......................................................... 9
Annotationen........................................................................................... 9
Die Entwicklung von papierbasierten zu digitalen Annotationen .............9
Annotationsformen und -kombinationen............................................... 12
Qualität von Annotationen und ihre Rolle für die Medienbranche..............15
Rolle von Annotationen in der Medienbranche...................................... 15
Qualität von Annotation......................................................................... 15
Kriterien nach Annotationstyp................................................................16
Der Prozess der Annotation und Ansatzmöglichkeiten der
Qualitätssicherung............................................................................ 17
Der Prozess der Annotation: Beteiligte und Rahmenbedingungen.........17
Ursache von Qualitätsmängeln...............................................................18
Qualitätssicherung................................................................................. 19
Qualitätsmanagement nach ISO-9000.................................................... 19
Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche
..................................................................................................... 20
Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen............20
„Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick
..................................................................................................... 22
Soziale Prozesse der Qualitätssicherung...................................................... 23
(a) Entwicklung von Klassifikationsschemas und Regelwerken...............23
(b) Überprüfung des Klassifikationsschemas auf Konsistenz...................25
(c) Doppelte und mehrfache Annotation................................................ 25
(d) Schulung von Kategorienschemas und Annotationstraining..............25
(e) Überprüfung der Anwendung von Klassifikationsschemas................25
(f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren...............26
(g) Zusammenarbeit von Archivaren und Kunden/Nutzern....................27
(h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit ..........27
(i) Erhebung des Nutzerverhaltens......................................................... 27

Technologische Unterstützung der Qualitätssicherung................................29
(a) Unterstützung bei der Erstellung und beim Management von
Kategorienschemas (Taxonomien)............................................... 29
(b) Steuerung des Annotationsprozess................................................... 30
(c) Vergleich der Annotationen und Bereinigung bei Mehrfach-
Annotation................................................................................... 31
(d) Qualitätsprüfung mit Hilfe automatischer Annotationen .................31
(e) Monitoring des Annotationsprozess..................................................32
(f) Qualitätssicherung mit und von (semi-) automatischen Annotationen
..................................................................................................... 32
(g) Einsatz von Empfehlungssystemen für Annotationsvorschläge.........34
(h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags
..................................................................................................... 35
(i) Spielbasierte Ansätze zur Qualitätsprüfung........................................36
(j) Qualitätssicherung auf Seiten der Nutzer/innen................................38
Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in
Medienarchiven................................................................................ 43
Qualitätssicherung der Annotation in der täglichen Praxis des
ORF-Fernseharchives................................................................... 43
Qualitätssicherung der Annotation bei Servus TV...................................47
Zusammenschau der Qualitätssicherungsaktivitäten in Fernseharchiven
..................................................................................................... 49
Ausblick und Entwicklungen........................................................................ 51

QUALITÄTSSICHERUNG BEI ANNOTATIONEN. Soziale und technologische Verfahren in der Medienbranche

EINLEITUNG UND HINTERGRUND

Einleitung
Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu
können, wird mit Annotationen gearbeitet. Dabei ist essentiell, dass es sich hierbei
nicht um „irgendwelche“ Annotationen handelt, sondern Anmerkungen, Schlag-
worte und weitergehende Informationen, die spätere Verwendungen, z.B. die Re-
cherche, tatsächlich unterstützen. Wichtig ist also, insbesondere in der Medien-
branche, in der es viele nicht-textuelle Beiträge gibt, die Qualität der Annotationen
zu gewährleisten und abzusichern. In Handbüchern zum Projektmanagement
oder Qualitätsmanagement im Multimedia-Bereich hat das Thema bisher keinen
Einzug gefunden: Beispielsweise gibt es den Begriff „Annotation“ im ganzen Buch
„Multimedia-Projektmanagement“ von Schifma und Heinrich (2001) nicht. Er
taucht auch nicht im „Handbuch Medienproduktion (Krömker & Herkenrath,
2005) im Lehrbuch „Medienmanagement (Altendorfer & Hilmer, 2006) oder im
„Medien- und Internetmanagement (Wirtz, 2005) auf.1
In unserem Bericht wird zunächst einführend geklärt, was Annotationen und ihre
Zielsetzungen sind und auch, welche Annotationsformen und -bedürfnisse es vor
allem in der Medienbranche gibt. Danach stellen wir Verfahren vor, wie man die
Qualität von Annotationen sichern kann. Dabei werden sowohl soziale, als auch
technologische Verfahren vorgestellt.
Dazu werden wir den Forschungs- und Praxisstand zu folgenden Fragen beschrei-
ben und erörtern:
– Was sind Annotationen und welche Rolle spielen sie in der Medienbranche?
– Welche sozialen Prozesse können die Qualität von Annotationen sichern?
– Welche technischen Prozesse und Methoden können die Qualität von Annotatio-
nen sichern?
– Welche Verfahren werden derzeit in der Medienbranche tatsächlich eingesetzt?
Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren-
de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in
Forschungsarbeiten erwähnt werden oder wie sie bei unseren Medienpartnern
eingesetzt werden. Dieser Lab Report stellt damit eine Basis für weitere wissen-
schaftliche und praktische Maßnahmen dar.

1
Hierbei beziehen wir uns auf Recherchen mit Hilfe der Volltextsuche bei Amazon.de
(Stand 2012-09-30)

7

Einleitung und Hintergrund

Hintergrund
Das Kompetenzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge-
neration“, räumte im Rahmen seiner Forschungstätigkeit dem Thema „Annotatio-
nen“ einen besonderen Stellenwert ein: Annotationen als Basis für semantische
Suche bildeten den Schwerpunkt des 2. Forschungsjahres (Juli 2011 bis Juni
2012). Unter der Bezeichnung „Linked Media“ entwickelte das Kompetenzzen-
trum seit 2010 Konzepte und Technologien für den Einsatz der vom World Wide
Web Consortium (W3C) proklamierten Linked Data Prinzipen2 in der Medien- und
Content-Industrie. Mit dem „Linked Media Framework“ (LMF3) wurde 2011 auch
eine Referenzimplementierung für ein Toolset zur Verwaltung von Metadaten, In-
halten und Annotationen nach den Prinzipien des W3C als Open Source Plattform
bereitgestellt, die kontinuierlich weiterentwickelt und mittlerweile als Referenz-
implementierung bei Apache Software Foundation (ASF 4) eingereicht wurde.
Der Linked Media Ansatz erlaubt die Verwaltung von Ressourcen (Text, Videos,
Metadaten, usw.) in einem standardisierten Format auf eine solche Weise, dass
diese mit weiterführenden Begriffen, Hintergrundinformation und Beschreibun-
gen auf einfache Art verknüpft werden können. Beispielsweise können Fragmente
eines Videos mit den Biographien oder den Fotos der im Video vorkommenden
Akteure verknüpft werden. Gleichermaßen können abgebildete Gegenstände und
vorkommende Bildelemente mit weiteren Informationen innerhalb des Unterneh-
mens verknüpft werden. Konkret wurde ein solches Verfahren für Red Bull Media
House GmbH5 entwickelt, um die in einem Video abgebildeten Athleten eines
Sport-Ereignisses mit der Athletendatenbank des Medienhauses zu verknüpfen.
Dadurch erhalten die Redakteuren „auf Mausklick“ Hintergrundinformationen zu
den Akteuren.
Diese Art von semantischen Verknüpfungen bildet in der Medien- und Content-In-
dustrie eine wesentliche Voraussetzung für die Einführung einer unternehmens-
übergreifenden Suche: Sie erschließt unterschiedliche Informationssysteme und
„Datensilos“ (beispielsweise die Mediendatenbank und die Athletendatenbank)
und sie berücksichtigt die Bedeutung von Begriffen (beispielsweise „erkennt“ ein
solches System, dass „Wien“ eine Stadt im Staat „Österreich“, oder eine bestimmte
Person Mitarbeiter/in in einem bestimmten Projekt ist).
Das „Salzburg NewMediaLab – The Next Generation“ agiert als anwendungs-
orientierte Forschungsplattform für die Medien- und Content-Industrie, indem es
derartige Verfahren nicht nur konzeptionell bereitstellt, sondern die Unterneh-
men bei der Einführung derartiger innovativer Technologien begleitet.

2
Linked Data Principles: http://www.w3.org/DesignIssues/LinkedData.html (2012-10-31)
3
Linked Media Framework (LMF): http://www.newmedialab.at/LMF (2012-10-31)
4
Apache Software Foundation (ASF): http://www.apache.org/ (2012-10-31)
5
Red Bull Media House GmbH: http://www.redbullmediahouse.com/ (2012-10-31)

8


ANNOTATIONEN: ENTSTEHUNG UND EINSATZ

Annotationen6
In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be-
deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio-
nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter
der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die
zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet
werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert,
ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne-
ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören
oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010)

Abbildung 1: Handschriftliche Notizen und Annotationen.
Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (15.3.2011)

Die Entwicklung von papierbasierten zu digitalen Annotationen
Nicht nur auf Papier, z.B. Notizen am Rand von Büchern, wird annotiert. Im World
Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder
auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom-
men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho-
mepages oder Profile bei Facebook, annotiert werden.

6
Bereits im Band 4 der Linked Media Lab Reports („Smarte Annotationen“) haben wir
eine kurze Einführung zu Annotationen gegeben: vgl. Seite Schön u.a. 2011, S. 9f., eini -
ge Abschnitte stammen im Folgenden von Dr. Andreas Strasser (Salzburg Research For-
schugnsgesellschaft mbH).

9

Annotationen: Entstehung und Einsatz

Digitale Annotationen sind digitale Objekte, die an andere digitale Objekte „ange-
hängt“ sind. Zunächst wurden papierbasierte Annotationsformen für die digitale
Welt adaptiert. Dokumente sind dabei mit Metainformationen versehen worden,
die die Klassifikation von Inhalten bzw. die Indexierung und Abfrage von Inhalten
ermöglicht haben. Zunächst wurde diese Form der Annotierung auf Text ange-
wandt, später auch auf andere digitale Dokumente (z.B. eine Website, eine Bild
bzw. ein Videostream). Annotationen können dabei sowohl ergänzende Informa-
tionen zu einem Dokument für mich selbst darstellen (d.h. Annotationen erlauben
mir, die gegebene Information des Dokuments durch eigene zusätzliche Informa-
tionen zu versehen), kann aber auch in kollaborativen Prozessen eingesetzt: d.h.
Ideen und Meinungen zu gemeinsamen Dokumenten unterschiedlichster Art kön-
nen ausgetauscht werden. (Hofman 2010, 12f).
Im Mai 2012 fasste die Open Annotation Community Group 7 des World Wide Web
Consortiums (W3C) eine Reihe von bedeutenden Vorarbeiten zur Spezifikation
von Annotationen zusammen und entwickelte mit dem Open Annotation Core
Data Model8 ein Referenzmodell für die Annotation von (Web-)Ressourcen, des-
sen Grundprinzip in der folgenden Abbildung dargestellt ist:

Abbildung 2: Grundprinzip einer Annotation nach dem Open Annotation Core Model.
Quelle: http://www.openannotation.org/spec/core/ (30.9.2012)

Eine Annotation wird prinzipiell als eine Verbindung zwischen der annotierten
Ressource („target“) und dem Inhalt der Annotation („body“) definiert. Die Ver-
bindung bedeutet, dass der Inhalt der Annotation („body“, z.B. ein Kommentar
oder eine Klassifikation) irgendwie mit der annotatierten Ressource („target“, z.P.

7
Open Annotation Community Group: http://www.w3.org/community/openannotation/ (30.09.2012)
8
Open Annotation Core Data Model: http://www.openannotation.org/spec/core/ (30.09.2012)

10


Einer Textstelle, einem Abschnitt eines Videos oder einem Ausschnitt eines Bil-
des) zu tun hat.
Das Open Annotation Core Data Model unterstützt über diese Grundprinzipien
hinausgehend semantisches Tagging, das Einbetten von Inhalten, die Auswahl von
Ausschnitten von Ressourcen, die Wahl geeigneter Repräsentationen von Res-
sourcen und die Bereitstellung von Hinweisen zur Darstellung für die Nutzer von
Annotationen. Das Modell ist gleichermassen offen gegenüber computer-gestütz-
ten Auswertungen der Annotation und gegenüber Auswertungen durch Men-
schen.
Die wichtigsten Grundlagen für die Entwicklung des Open Annotation Core Mo-
dels bildten die unter Apache 2.0 Lizenz verfügbare Annotation Ontology 9 und die
Open Annotation Collaboration10. Eine Erweiterung dieses Grundmodells für Vi-
deos, Audio und Bilder erfolgte durch die Media Annotation Working Group 11 der
Video in the Web Activity des W3C: Die Arbeiten dieser Gruppe umfassen die On-
tology for Media Resources12 und eine Anwendungs-Programmierschnittstelle
(API) für Medien Ressourcen13.Ziele der Annotation
Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate-
rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab-
sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un-
terscheiden.
Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An-
notationen vor allem
– um die Recherche der Materialien zu verbessern,
– um gute Empfehlungen für passendes eigenes weiteres Material zu geben,
– um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen
zu können (z.B. mit dem Linked-Data-Ansatz),
– um das Ranking auf Suchmaschinen zu verbessern,
– um das unternehmensinterne Wissensmanagement zu verbessern und
– um mit Methoden des Webmonitoring das eigene Material und dessen Entwick-
lung beobachten und bewerten zu können.

Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig
– für das eigene Informationsmanagement und
– um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos
bei Facebook mit dem Namen von Kontakten versehen werden.
9
Annotation Ontology: http://code.google.com/p/annotation-ontology/ (30.09.2012)
10
Open Annotation Collaboration: http://www.openannotation.org/commRes.html (30.09.2012)
11
Media Annotation Working Group: http://www.w3.org/2008/WebVideo/Annotations/ (30.09.2012)
12
Ontology for Media Resources: http://www.w3.org/TR/2012/REC-mediaont-10-20120209/ (30.09.2012)
13
API for Media Resources: http://www.w3.org/TR/2011/WD-mediaont-api-1.0-20111122/ (30.09.2012)

11


Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo-
tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots
ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei-
gen wird, entstehen Annotationen nicht zwangsläufig bewusst.

Annotationsformen und -kombinationen
Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da-
von vorgestellt.

Professionelle Klassifikation
Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt.
Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte,
die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re-
cherchieren kann. Mit Hilfe von Terminologien (z.B. kontrollierten Vokabularen
und Thesauri) werden Terme in Verbindung gebracht, so dass beispielsweise ein
Text zu Skifahren dem Bereich „Sport“ zugeordnet werden kann. In traditionellen
Medienarchiven werden Materialien zu Kategorien und Unterkategorien zugeord-
net, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte bein-
halten. Ein Beispiel für eine mehrsprachige Taxonomie für den Nachrichtenbe-
reich bilden die IPTC NewsCodes 14.

Freie Verschlagwortung und Social Tagging
Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder
andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu
markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön-
nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä-
re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009).
Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten
Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer
beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der
Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen
Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint
& Westenthaler, 2009, 192). Die Grenzen dieses Ansatzes werden rasch etwa an
den Herausforderungen der Mehrsprachigkeit (z.B: deutsch „Venedig“, englisch
„Venice“) oder – ganz abgesehen von Schreibfehlern – an unterschiedlichen einge-
bürgerten Schreibweisen (z.B. „Tchaikovsky“, „Tschaikovski“) deutlich.

Automatische Annotation
Neben den von Personen durchgeführten Annotationen gibt es auch automatisch
generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern
Informationen generiert. Auch können die zahlreichen (Meta-) Informationen, die
14
http://www.iptc.org/site/NewsCodes/ (28.08.2012)

12


im Web anfallen und gesammelt werden, bei der Entwicklung von Annotationen
berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er aufgeru-
fen, wen interessiert eine Webseite?

Kombination der Ansätze
Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus-
drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi-
schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen
der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro-
blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es
oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert
wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma-
chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem
Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku-
mente z. B. über entsprechende Suchfunktionen nicht auffindbar.
Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden
die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl
& Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati-
onsextraktion) mit manuell erzeugten Metadaten durch Tagging oder Klassifikati-
on.

Annotationstypen im Multimedia-Bereich
Fragt man einen Praktiker, lassen sich (zumindest) folgende Typen der Multime-
dia-Annotationen unterscheiden:
– Klassifikation: jede Art der Annotation, die ein Asset, also eine Medieneinheit ei-
ner Gruppe zuordnet.
– Beschreibung des Inhalts: Beschreibung (vor allem) von Audio- und Video-As-
sets („was ist im Video zu sehen?“), aber auch von Text-Dokumenten („was ist
der Inhalt des Dokuments?“).
– Metadaten (Aufnahmeort, technische Spezifikation, Länge, etc.)
– Kommentare (weitere Hinweise, Anmerkungen)
Klassifikationen können dabei in verschiedenen Bereichen getroffen werden: z.B.
bei Art eines Berichts (z.B. ein Interview, ein Live-Bericht, eine Dokumentation),
oder z.B. die Sparte des Videos (z.B. Sport, Politik, Religion). Musikstücke werden
beispielsweise nach Genre eingeteilt (z.B. Klassik, Pop, Rock), können aber auch
nach Epoche (z.B. Klassik, Romantik, Moderne) kategorisiert werden oder auch
nach Anwendungszweck (z.B. Kirchenmusik, U-Musik).
Bei der Beschreibung des Inhalt lassen sich u.a. die Objekt-Ebene (was/wer ist zu
sehen) sowie die Inhalts-Ebene (worum geht es) unterscheiden.

13


Weiters unterscheiden wir nach Ossenbruggen, Stamou und Pan (2005) drei An-
notationsebenen:
– Rohdaten, beispielsweise die MPEG-3- oder JPG-Daten, also die reinen Multime-
dia-Daten
– strukturelle Beschreibungen, beispielsweise mit XML oder MPEG-7, also struk-
turierte Informationen zu den Rohdaten sowie
– semantische Beschreibungen, beispielsweise in RDF, OWL oder Regeln beschrie -
ben.
Ossenbruggen et al. (2005) bezeichnen diese Ebenen dabei als subsymbolische,
symbolische bzw. logische Schichten und weisen darauf hin, dass sie technolo-
gisch nicht trennscharf realisiert werden.

Die Handelnden: Annotierende
Zwar ist der Begriff der Annotation einschlägig bekannt, beim Schreiben dieses
Lab Reports ist uns jedoch aufgefallen dass es – zumindest im Deutschen – bisher
keine einheitliche Bezeichnung für die Person gibt, die eine Annotation macht. So
verwendete unsere Autorinnen und Autoren auch unterschiedliche Begriffe, u.a.
„Annotateure“, „Annotierer“ und „Annotator“. Auch wir konnten und wollten uns
nicht festlegen. Und natürlich sind gleichermaßen Frauen und Männer gemeint
wenn wir im Folgenden einen der Bezeichnungen verwenden.

14


QUALITÄT VON ANNOTATIONEN UND IHRE ROLLE FÜR DIE MEDIEN-
BRANCHE

Was macht nun eine qualitativ hochwertige Annotation von Medienressourcen
aus? Und welche Rolle spielt diese Qualität für die Medienbranche?

Rolle von Annotationen in der Medienbranche
Um die Frage nach qualitativ guten Annotationen beantworten zu können, ist zu-
nächst wichtig zu klären, wie und warum in der Medienbranche mit Annotationen
gearbeitet wird. Sie nutzt Annotationen unter anderem
– für das eigene Informationsmanagement,
– um die Recherche der Materialien zu verbessern,
– um Materialien für andere erschließbar zu machen,
– um gute Empfehlungen für passendes eigenes weiteres Material zu geben,
– um die Materialien intelligent mit externen Daten und Ressourcen verknüpfen
zu können (z.B. mit dem Linked-Data-Ansatz), oder auch
– um mit Methoden des Webmonitoring das eigene Material und dessen Entwick-
lung beobachten und bewerten zu können.
Annotationen sind damit mittelbar in der Medienbranche dafür verantwortlich,
dass zum Beispiel (vgl. ARD, ORF & ZDF, 2008):
– der eigene Absatz oder Verkauf gesteigert werden kann (zum Beispiel von eige-
ne Bildern oder Videos),
– der eigene Service verbessert werden kann (wenn z.B. Redakteure nicht lange
auf gewünschte Bilder und Videosequenzen warten müssen),
– redaktions- bzw. anstaltsübergreifende Recherchen möglich sind,
– Entscheidungen darüber getroffen werden können, welche Materialien langfris-
tig archiviert werden sollen und welche nicht,
– es durch (kreative) Recherche und Wiederverwendung von Materialien zu Ein-
sparungen bei der Produktion kommt und
– das kulturelle Erbe gesichert wird (v.a. im Falle der öffentlichen Rundfunks).

Qualität von Annotation
Wie lässt sich nun genau die Qualität von Annotationen beschreiben?
Annotationen sollten ganz allgemein (vgl. Schön, Kurz u.a., 2011, S. 30) wesentli-
che Inhalte und Konzepte erfassen, detailliert sein, nicht (zu) allgemein sein und
eine Ressource möglichst genau und eindeutig beschreiben.

15

Qualität von Annotationen und ihre Rolle für die Medienbranche

Die Qualität der Annotation lässt sich dann u.a. durch eine hohe Übereinstimmung
der Annotation durch mehrere Expertinnen bestimmen, aber auch durch eindeuti -
ge Zuordnungen der Annotationen auf bestimmte Ressourcen. Es geht also ab-
strakt um eine möglichst hohe Konsistenz, also Stimmigkeit der Annotation (und
Ressource). Darüberhinaus kann bzw. muss sich die Qualität von Annotationen
auch häufig in der Nutzung, z.B. für die Recherche von Ressourcen, beweisen, so
dass auf einmal auch Nutzer/innen über die Brauchbarkeit der verwendeten An-
notationen mitentscheiden. Diese Qualitätsbeschreibungen beinhalten so auch
einen Ansatz, wie die Qualität geprüft und gesichert werden kann.
Schließlich kann es wichtig sein, dass auch die Annotationen im hohen Maße ver-
trauenswürdig sind. Sofern man davon ausgeht, dass die Ressourcen von Profis,
z.B. Archivaren annotiert wurden, kann man Vertrauenswürdigkeit ohne Weiteres
voraussetzen. Problematisch und weniger selbstverständlich ist dies jedoch bei
Daten die von externen Quellen hinzugezogen werden (z.B. Informationen aus der
Wikipedia genutzt werden). Dies trifft insbesondere für den Linked-Data-Ansatz
zu, wenn Daten oder Annotationen von Nutzer/innen miteinbezogen werden. Ver-
trauenswürdigkeit (engl. „trust“) ist dabei nicht notwendigerweise ein Garant da-
für, dass etwas fehlerfrei ist, sollte aber auf möglichst korrekte Annotationen füh-
ren lassen (vgl. Ceolin u.a., 2010; Ceolin u.a., 2012).

Kriterien nach Annotationstyp
Betrachtet man die unterschiedlichen Typen von Annotationen zeigt sich, dass
hier jeweils unterschiedliche Aspekte auf ihre Qualität hinweisen. Folgende Tabel-
le zeigt dies exemplarisch an den bereits vorgestellten Annotationstypen.
Klassifikation Vollständigkeit: Wurden bei allen möglichen Klassen gewählt?
Genauigkeit/Präzision/Granularität: Wurde auf möglichst „tiefen“ Abstufun -
gen geachtet?
Korrektheit: Wurden richtige Klassen gewählt?
Beschreibung des Inhalts Relevanz: Wurden relevante Inhalte beschrieben?
Korrektheit: Wurden Inhalte richtig beschrieben?
Metadaten Vollständigkeit: Sind alle Metadaten vorhanden?
Genauigkeit: Wie genau sind diese erfasst?
Korrektheit: Wurden die Metadaten exakt erfasst?
Kommentare Relevanz: Wurden relevante Kommentare abgegeben?
Korrektheit: Sind die Kommentare zutrefend?

Tabelle 1: Annotationstypen und Qualitätskriterien

Die Übersicht zeigt, dass unter Umständen unterschiedliche Kriterien herangezo-
gen werden müssen um die Qualität von Annotationen zu bewerten.

16


DER PROZESS DER ANNOTATION UND ANSATZMÖGLICHKEITEN DER
QUALITÄTSSICHERUNG

Der Prozess der Annotation: Beteiligte und Rahmenbedingungen
Um ein besseres Bild davon zu erhalten, wo Qualitätssicherungsmaßnahmen an-
greifen können, müssen sich Prozesse der Annotation genauer betrachtet werden.
In Abbildung 3 werden dazu einige wesentliche Rahmenbedingungen und Betei-
ligte dargestellt und im folgenden skizziert:

Abbildung 3: Annotationsbeteiligte und -rahmenbedingungen für Qualitätssicherungsmaßnahmen

Werden Medienressourcen, z.B. Bilder oder Videos in einem Medienunternehmen
annotiert, sind folgende Beteiligte und Rahmenbedingungen zu nennen:
A) Zunächst gibt es im Unternehmen Konventionen zur Annotation, z.B. wer-
den bestimmte Metadaten verwendet oder Taxonomien, auch unterneh-
menseigene Entwicklungen. Auch gibt es Routinen und Prozesse, auf wel-
che Weise Ressourcen im Unternehmen gespeichert, erfasst und annotiert
werden, z.B. Zuständigkeiten, auch ausgewiesene Qualitätssicherungs-
strategien (z.B. doppelte Annotation) können hier darunter fallen.
B) Dann sind die Systeme, in denen die Ressourcen gespeichert und/oder be-
schrieben werden und ihre Möglichkeiten und Vorgaben der Annotation
wesentlich. Einige Systeme beinhalten z.B. Empfehlungssysteme für Anno-
tationen oder unterstützen die Qualitätssicherung der Annotation durch
entsprechende Kennzeichnung von Materialien.
C) Die Ressource selbst ist ebenso wichtig im Prozess der Annotation: Um
welches Medienprodukt handelt es sich? Welche Bedeutung hat es im Un-
ternehmen? Welchen Zweck erfüllt es, soll es erfüllen? Zur Annotation

17

Der Prozess der Annotation und Ansatzmöglichkeiten der Qualitätssicherung

von Videos gehört beispielsweise auch die sinnvolle Segmentierung der
Videos in kürzere Abschnitte (z.B. mit der Keyframe-Methode oder einer
automatischen Szenenerkennung).
D) Der Ersteller einer Ressource ist in der Regel derjenige, der erste grobe
Annotationen vornimmt oder überträgt, z.B. die Metadaten zu den Auf-
nahmen (Bildgröße, Videolänge, Belichtungseinstellungen etc.). Auch wer-
den zum Beispiel Videos mit groben Daten wie Aufnahmedatum, Ort,
Zweck, Beteiligte versehen.
E) In Medienfirmen gibt es in aller Regel (semi-) professionelle Archivare.
Diese sind entsprechend ausgebildet und wurden in der Regel unterneh-
mensintern geschult.
F) Nutzer/innen von Ressourcen sind in zweierlei Hinsicht interessant: Zum
einen sorgen sie direkt (z.B. durch Tagging) und indirekt (z.B. durch ihr
Such- und Nutzungsverhalten) für eine Erweiterung der Annotationen ei-
ner Ressource. Gleichzeitig können ihre Erwartungen, Erfahrungen und
Verbesserungsvorschläge sowie ihr Verhalten auch bei der Qualitäts-
sicherung eingesetzt werden.
Diese Darstellung ist allgemein und abstrakt – je nach spezifischem Anwendungs-
fall und Annotationsform gibt es hier Besonderheiten, auf die im Folgenden in den
Beispielen auch eingegangen wird. So können beispielsweise Videos auch kollabo-
rativ annotiert werden (u.a. Hofmann u.a., 2009).

Ursache von Qualitätsmängeln
Bei der Annotation können eine Reihe von Fehler auftreten, dabei sind unter an-
derem die eigentümliche (fehlerhafte) Interpretation von Kategorien, Antwort-
tendenzen, aber auch Faktoren wie Motivation oder Ermüdungserscheinungen zu
nennen (Staab, Maedche & Handschuh, 2001). Darüberhinaus können auch die
verwendeten Klassifikationsschema ungeeignet oder inkonsistent sein.
Die skizzierten Einflussfaktoren und auch ihre Wechselwirkungen sind jedoch
auch deshalb nicht eindeutig zu benennen, „da sie von den jeweiligen Merkmalen
der Annotierer, des Schemas und der Objekte abhängen (vgl. auch Spiegelman,
Terwilliger, & Fearing, 1953). Erschwerend kommt hinzu, daß Untersuchungen zu
solchen Einflußfaktoren und ihrer Wirkung auf die Reliabilität (Anm. der Heraus-
geber: „Übereinstimmung“) manueller Annotationen bislang kaum existieren. Ihre
Kontrolle und damit eine systematische Qualitätssicherung von Annotationen ist
somit nur eingeschränkt möglich. Anstrengungen in diesem Bereich müssen sich
demnach im wesentlichen auf den Nachweis einer ausreichenden Annotations-
qualität beschränken“ (Bayerl, 2003)

18


Qualitätssicherung
Versuche und Ansätze, qualitativ hochwertige Dienstleitungen und Produkte zu
erhalten und dies zu „sichern“ sind Verfahren der Qualitätssicherung und damit
allgemeiner dem Qualitätsmanagement zu zuordnen. Maßnahmen zur Sicherung
der Qualität von Annotationen können dabei ganz unterschiedlich gestaltet wer-
den.
Allgemein gibt es in unternehmerischen Kontext mehrere Verfahren und Vor-
schläge, wie Qualitätssicherung betrieben werden kann. Weit verbreitet sind hier
die entsprechenden ISO-9000-Normen (Fuchs, 2006, 58f).

Qualitätsmanagement nach ISO-9000
Seit 1985 beschreiben diese Normen der „International Organization for Standar-
dization“ (ISO) Formen, Vorgehen und Methoden des Qualitätsmanagements. Die
vier Hauptabschnitte zu Qualitätsmanagement (ISO 9001:2000-12) tragen die Ti-
tel Verantwortung der Leitung, Management von Ressourcen, Produktrealisie-
rung, sowie Messung, Analyse und Verbesserung und werden in einem Modell ei-
nes prozessorientierten Qualitätsmanagementsystems beschrieben. Zwei Regel-
kreise des prozessorientierten Qualitätsmanagementsystems verbinden diese vier
Bereiche (vgl. Becker, 2005, S. 35; Fuchs, 2006, 59). Der erste wird durch die Be-
wertung des Managements als kontinuierliche Verbesserung geschlossen, der
zweite bezieht Kundenanforderungen, die Umsetzung der Produkte (bzw. Dienst-
leistungen) sowie Kundenzufriedenheitsmessungen ein (vgl. Abbildung 4).

Abbildung 4: DIN EN ISO 9001:2000-12 – Modell eines prozessorientierten Qualitätsmanagementsystems
Quelle: nach http://www.tqm.com/methoden/din-en-iso-9001 (10.11.2011)

19


Aus diesem Modell des Qualitätsmanagements lässt sich ableiten, dass „interes-
sierte Parteien“ eine wichtige Rolle im Qualitätsmanagement spielen. Im Falle der
Annotationen sind das Nutzer/innen der Annotationen: Welche Forderungen an
gute Annotationen haben sie? Wie zufrieden sind sie mit den Annotationen? Wie
hier ständig Verbesserungen erreicht werden können, ist allgemein die Aufgabe
des Qualitätsmanagements.

Ausgewählte ISO-Normen für Qualitätssicherung in der Medienbranche
Für Unternehmen in der Medienbranche gibt es eine Reihe von konkreten ISO-
Normen die den Umgang mit Medienressourcen beschreiben. Immer wieder tau-
chen hier auch Aspekte der Annotation auf. Beispiele dafür sind:
– ISO 6199 zu Mikrofilme, „information required to facilitate identification of the
microfilm“15,
– ISO 15930-1 bis -8: Eigenschaften von pdf-Dateien als Druckvorlagen 16, z.B. zur
Vollständigkeit der Angaben für den Druck und
– ISO/IEC 18019: Guidelines for the design and preparation of software user do-
cumentation17.

Ansatzmöglichkeiten zur Qualitätssicherung von Annotationen
Im Folgenden betrachten wir, wie Qualitätssicherungsstrategien im Bezug auf die
Qualität von Annotationen aussehen können. Diese lassen sich zunächst aus dem
vorgestellten Annotationsprozessen sowie dem Qualitätsmanagement ableiten.
Das „Produkt“ sind in unserem Fall annotierte Assets bzw. Medienressourcen. Fol-
gende Matrix zeigt unterschiedliche Ansatzmöglichkeiten und Fragestellungen,
die man sich im Rahmen der Qualitätssicherung der Annotation stellen kann (Ta-
belle 2).
Merkmale, nach denen hier jeweils entsprechende Lösungen oder Verfahren ent-
wickelt werden, sollten sich an den Kriterien für gute Annotationen, also der Qua-
lität von Annotationen richten. Gleichzeitig hat die Qualitätssicherung bzw. das
damit verbundene Qualitätsmanagement auch weitere wichtige Kriterien für die
Auswahl von Verfahren und relevanten Entscheidungen, diese sind beispielsweise
Effektivität, Effizienz, die Höhe des Ressourceneinsatz bzw. -aufwand,
Aufwands-/Ertrag-Relation und verschiedene eher betriebswirtschaftliche Aspek-
te (vgl. „Management der Mittel“ in Abbildung 4, S. 19).

15
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?
csnumber=27582 (2011-11-09)
16
http://de.wikipedia.org/wiki/PDF/X (2012-05-03)
17
http://www.usabilitynet.org/tools/r_international.htm (2012-07-23)

20


Verbesserung des
Prozess der Qualitätsmanage-
Annotation
Annotation ment rund um das
Annotieren
Wie lässt sich der Pro-
Wie lässt sich die Anno- Wie lässt sich das Quali-
Annotationskon- zess der Annotation
tation durch Annotati- tätsmanagement durch
durch Annotationskon-
ventionen und onskonventionen und Annotationskonventio-
ventionen und Prozess-
-prozesse Prozessgestaltungen ver- nen und -prozesse ver-
gestaltungen verbes-
bessern? bessern?
sern?
Wie lässt sich der Pro- Wie lässt sich das Quali-
Wie lässt sich die Anno-
Annotations- zess der Annotation tätsmanagement durch
tation durch Annotati-
systeme durch Annotationssyste- Annotationssysteme ver-
onssysteme verbessern?
me verbessern? bessern?
zess der Annotation im tätsmanagement der An-
Medienasset/ tation im Hinblick auf die
Hinblick auf die zu anno- notationen im Hinblick
Ressource tierende Ressource ver-
zu annotierende Res-
auf die Ressourcen ver-
source verbessern?
bessern? bessern?
Ersteller einer tation im Hinblick auf die
Hinblick auf die Ersteller notationen im Hinblick
Ressource Ersteller von Ressourcen
von Ressourcen verbes- auf die Ersteller von Res-
verbessern?
sern? sourcen verbessern?
Wie lässt sich das Quali-
Wie lässt sich der Pro- Wie lässt sich die Anno-
tätsmanagement der An-
Annotator zess der Annotation im tation im Hinblick auf die
notationen im Hinblick
ggf. Archivar Hinblick auf die Annota- Annotatoren verbess-
auf die Annotatoren ver-
toren verbessern? ern?
bessern?
Nutzer/innen tation im Hinblick auf die
Hinblick auf die Nutzer/- notationen im Hinblick
der Ressourcen Nutzer/innen der Res-
innen der Ressourcen auf die Nutzer/innen der
sourcen verbessern?
verbessern? Ressourcen verbessern?

Tabelle 2: Ansatzmöglichkeiten und Fragestellungen für Qualitätssicherung bei der Annotation (Beispiele)

21


„Soziale“ und „technische“ Qualitätssicherungsmaßnahmen im Überblick
Für die nun folgenden Übersicht von Qualitätssicherungsmaßnahmen haben wir
zum einen (eher) „soziale“ Maßnahmen zusammengestellt um in einem weiteren
Kapitel „technische“ Maßnahmen vorzustellen. Die folgende Übersicht zeigt die
einzelnen Maßnahmen, die in der Literatur oder in Gesprächen, oft nur exempla-
risch, ausgeführt anhand der oben eingeführten wichtigen Aspekten der Anntota-
tion (vgl. Tabelle 3).
„soziale“ „technische“
Qualitätssicherungsmaßnahmen Qualitätssicherunsmaßnahmen
(a) Entwicklung von Klassifikationsschemas
und Regelwerken (a) Unterstützung bei der Erstellung und
Annotations-
(b) Überprüfung des Klassifikationsschemas beim Management von Kategoriensche-
konventionen auf Konsistenz mas (Taxonomien)
und -prozesse (c) Doppelte und mehrfache Annotation

(b) Steuerung des Annotationsprozess
(c) Vergleich der Annotationen und Bereini-
Annotations- gung bei Mehrfach-Annotation
[siehe rechts]
systeme (d) Qualitätsprüfung mit Hilfe automati-
scher Annotationen
(e) Monitoring des Annotationsprozess
Medienasset/ (f) Qualitätssicherung mit und von (semi-)
[keine Vorschläge vorhanden]
Ressource automatischen Annotationen
Ersteller einer
[keine Vorschläge vorhanden] [keine Vorschläge vorhanden]
Ressource
(d) Schulung von Kategorienschemas und
Annotationstrainings
(e) Überprüfung der Anwendung von Klassi-
Annotator fikationsschemas (g) Einsatz von Empfehlungssystemen für
ggf. Archivar (f) Entwicklung und Einsatz eines Prüfkor- Annotationsvorschläge
pus für Annotatoren
(g) Zusammenarbeit von Archivaren und
Kunden/Nutzern
(h) Visualisierung der Vertrauenswürdigkeit
(h) Erhebung der Kunden/Nutzerbedürfnis- von Annotationen und Tags
Nutzer/innen
se und -zufriedenheit (i) Unkonventionelle Lösung: Spielbasierte
der Ressourcen (i) Erhebung des Nutzerverhaltens Ansätze zur Qualitätsprüfung
(j) Qualitätssicherung durch Nutzer/innen

Tabelle 3: Übersicht über „soziale“ und „technische“ Qualitätssicherungsmaßnahmen bei der Annotation

Im Vergleich mit der Übersicht in Tabelle 2 (s. S. 21) fällt auf, dass zum Aspekt Me-
dienasset/Ressource bzw. Ersteller einer Ressource keine spezifischen Qualitäts-
sicherungsmaßnahmen recherchierbar waren. Es ist anzunehmen, dass es hier je-
doch in der Archivpraxis Konventionen und Prozesse gibt, die hier im Bezug auf
die (spätere) Annotation von Belang sind.

22


SOZIALE PROZESSE DER QUALITÄTSSICHERUNG

In diesem zweiten Abschnitt beschreiben wir Qualitätssicherungsaktivitäten, die
überwiegend „soziale“ Aspekte, also Aspekte im Bezug auf die beteiligten Perso-
nen betreffen, in Abgrenzung zu den anschließend behandelten technischen Sys-
temen und Lösungen. Natürlich ist diese Unterteilung nicht immer trennscharf, da
ja Nutzer/innen die Systeme bedienen und dass die Systeme manchmal auch nur
soziale Prozesse unterstützen und steuern. Dennoch zeigt diese Betonung von so-
zialen Prozessen, dass zur Qualitätssicherung von Annotationen nicht nur „techni-
sche Lösungen“ führen, sondern dass diese eben oft nur unterstützen.

(a) Entwicklung von Klassifikationsschemas und Regelwerken
Um die die Qualität von Annotationen zu erhöhen bzw. zu sichern, werden in der
Medienbranche Klassifikationsschema entwickelt oder eingesetzt. Die Materialien
können dann Kategorien und Unterkategorien zugeordnet werden, welche häufig
auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten.
Solche Schemas werden auch als Taxonomien bezeichnet. Ein Beispiel für eine Ta-
xonomie aus der Biologie zeigt die folgende Tabelle 4.
Deutsch Latein bzw. Altgriechisch Beispiel
Reich Regnum Vielzellige Tiere
Abteilung / Stamm Divisio / Phylum Chordatiere
Unterstamm Subphylum Wirbeltiere
Klasse Classis Säugetiere
Ordnung Ordo Raubtiere
Überfamilie Superfamilia Katzenartige
Familie Familia Katzen
Unterfamilie Subfamilia Kleinkatzen
Gattung Genus Altwelt-Wildkatzen
Art Species Wildkatze
Unterart Subspecies Hauskatze

Tabelle 4: Beispiel für eine Taxonomie – Auszüge aus der Biologie
Quelle: http://de.wikipedia.org/wiki/Taxonomie (9.9.2011)

In Unternehmen und Medienarchiven werden dazu häufig eigene Taxonomien für
die eigene Bedürfnisse der Annotation und der Nutzung der Daten entwickelt. Die
Entwicklung eines Klassifikationsschemas wird als eine wesentliche Maßnahme
zur Qualitätssicherung der Annotation betrachtet.
Das „Regelwerk Mediendokumentation“ von ARD, ORF und ZDF (2008) ist ein gu-
tes Beispiel für ein branchenweites Regelwerk der Beschreibung von Medienin-
halten, in diesem Falle von Fernsehproduktionen. Immer wieder überarbeitet und
so konzipiert, dass Archive auch auf Entwicklungen in der Fernsehproduktion

23

Soziale Prozesse der Qualitätssicherung

(neue Formate, Genre, Technologien) eingehen können werden hier Elemente der
Formalbeschreibung sowie die Bestandteile der Inhaltswiedergabe beschrieben
bzw. festgelegt. Durch die Verwendung des Regelwerks werden auch archivüber-
greifende Recherchen möglich. Das Regelwerk wird auch in vielen privaten Fern-
sehproduktionsstätten eingesetzt.
Ergänzend werden häufig auch Metadatenformate verwendet. Metadaten eines
Buches sind beispielsweise die Autorennamen, die ISBN, der Verlag, der Erschei-
nungsort. Metadaten sind im Gegensatz zu Webseiten meist strukturierte Daten
und daher vom Computer weiterverwendbar. Im Internet bzw. der Informatik
werden solche „Daten über Daten“ als Metadaten bezeichnet, die jedoch ganz un-
terschiedliches beinhalten. Um einen geregelten Austausch von Daten in einem
Anwendungsbereich zu verbessern oder zu erleichtern, hat man sich in vielen Be-
reichen, auf genau beschriebene Metadatenformate geeinigt. Treiber dieser Be-
strebungen sind vor allem Archive, welche verbunden mit der Digitalisierung ih-
rer Bestände auch den Austausch ihrer Daten über Publikationen ermöglichen
und vereinfachen wollten (z. B. mit Dublin Core). In der Nachrichtenindustrie
macht vor allem der Zeitdruck einen reibungslosen Austausch von Nachrichten
den Einsatz von Metadatenformaten wie NewsML, der bereits erwähnten IPTC
NewCodes und EXIF erforderlich. Beim Web 2.0 und den sozialen Netzwerken
steht die Vernetzung der Community im Vordergrund (z. B. FOAF, SIOC). Sche-
ma.org18 ist das Ergebnis einer Vereinigung von Suchmaschinen-Herstellern und
verfolgt das Ziel, Schemas für die Auszeichnung von Web-Seiten auf eine solche
Art und Weise bereitzustellen, dass Suchmaschinen den Inhalt besser interpretie-
ren (und durchsuchen) können. Dieser Ansatz fällt unter die Gruppe der „Micro-
data“-Ansätze zur Anreicherung bzw. Auszeichnung von Web-Ressourcen mit se-
mantischen Informationen. Die Open Annotation Collaboration (OAC) Group 19 un-
terstützt die Entwicklung eines Ressourcen-zentrierten Annotationsumfelds für
das Word Wide Web und hat mit den Open Annotation Core Data Model 20 im Mai
2012 ein grundlegendes Schema für die Annotation von Ressourcen vorgestellt.
Eine Befragung der Semantic Web Company, an der sich mehr als 150 Personen
aus 27 Ländern beteiligten, zeigt, dass der Einsatz von unternehmensinternen
Thesauri verbreitet ist (vgl. Abbildung 5): Demnach wird bei rund 86 Prozent der
Befragten eine Taxonomie eingesetzt, bei 39 Prozent sogar schon mehr als 10 Jah-
re lang.

18
http://schema.org/ (28.08.2012)
19
http://www.openannotation.org/ (28.08.2012)
20
http://www.openannotation.org/spec/core/ (28.08.2012)

24


Abbildung 5: Einsatz von Taxonomien in Unternehmen und seien Dauer. Befragungsergebnisse (N=158)
Quelle: Kondert, Schandl & Blumauer (2011)

(b) Überprüfung des Klassifikationsschemas auf Konsistenz
Bevor ein Klassifikationsschema übernommen bzw. eingeführt wird sollte es aus-
reichend getestet werden. Sind alle notwendigen Kategorien und Begriffe enthal-
ten? Gibt es Inkonsistenzen? Fehlen Erklärungen? Testweise sollten Dokumente
von mehreren gleichzeitig annotiert werden und diese Annotationen verglichen
werden: Abweichungen können auch an den unzureichenden Erläuterungen und
Definitionen des Klassifikationsschemas liegen.

(c) Doppelte und mehrfache Annotation
Eine Möglichkeit, die Qualität der Annotationen zu sichern, besteht darin, die An-
notationen doppelt oder mehrfach durchführen zu lassen – durch die gleichen
Personen oder durch weitere Personen. Auch können zusätzlich (für den Ver-
gleich) auch automatische Annotationen verwendet werden und Übereinstim-
mungen bzw. Abweichungen mit den Annotationen kontrolliert werden.

(d) Schulung von Kategorienschemas und Annotationstraining
Nun genügt es natürlich nicht, ein Kategorienschema zu entwickeln: Jede/r, der
Annotationen damit vornimmt muss darin entsprechend geschult sein um mög-
lichst gute Annotationen zu liefern. Eine Maßnahme der Qualitätssicherung sind
also Schulungen und Annotationstrainings.
Diese werden über mehrere Wochen hinweg, häufig in Zusammenarbeit mit Ex-
perten durchgeführt, indem Dokumente gemeinsam oder auch einzeln annotiert
werden. Während des Trainings können so auch aufkommende Probleme geklärt
werden (vgl. Bayerl, 2003).

(e) Überprüfung der Anwendung von Klassifikationsschemas
Die Anwendung des Klassifikationsschemas kann dabei in dreifacher Weise über-
prüft werden (Bayerl, 2003): „Aussagen zur Qualität manueller Annotationen
müssen getroffen werden hinsichtlich:

25


– Anwendung des Schemas im Sinne des vorgegebenen Standards
– Übereinstimmung in der Anwendung des Schemas zwischen Annotierern (inter-
individuelle Konsistenz)
– Konsistenz eines Annotierers über die Zeit (intraindividuelle Konsistenz)“
So lässt sich unter anderem bewerten, ob eine „eindeutige, konsistente Zuordnung
von Objekten in die Klassen des Schemas möglich ist“ (Bayerl, 2003). Dazu emp-
fiehlt Bayerl (2003) die Verwendung eines Klassifikationsschemas durch ver-
schiedene Personen für jeweils identische Objekte. „Erreichen diese eine überein-
stimmende Zuordnung der Objekte kann davon ausgegangen werden, daß das
Schema seinen Zweck der eindeutigen, wiederholbaren Klassifizierbarkeit von
Objekten erfüllt (wobei hiermit allerdings noch keine Aussage über die Sinnhaftig-
keit der Kategorien und Zuordnungen, d. h. die Validität des Schemas getroffen
ist)“.
Zusätzlich kann mit einem solchen Vergleich der Übereinstimmung mehrerer An-
notatoren deren interindividuelle Konsistenz geprüft werden. Von Zeit zu Zeit er-
scheint es auch sinnvoll, die Übereinstimmung der Annotationen bei gleichen An-
notatoren zu überprüfen.
Bei diesen Überprüfungen wird in aller Regel die Übereinstimmung (Reliabilität)
als ungewichtetes Kappa (nach Cohen, 1960) berechnet. Liegt der Wert von Kappa
über 0,75 wird dies in aller Regel als ausreichend betrachtet (Landis & Koch,
1977, vgl. Bayerl, 2003). Allerdings ist diese Betrachtung nicht unproblematisch –
so können die Übereinstimmungen auch auf der Verwendung allgemeiner Kon-
zepte und Kategorien beruhen, auch ist dadurch nicht klar, welcher von zwei An-
notatoren besser annotiert.
Auch wenn Kontrollmechanismen wie der Vergleich mit einer automatischen An-
notation oder eine doppelte Annotation mit einem zweiten Annotierer durchge-
führt werden, hängt erwartungsgemäß und auch empirisch bestätigt die Qualität
und die Effektivität der Ergebnisse maßgeblich von den Erfahrungen und Qualifi-
kationen der Annotierer ab (vgl. Crystal u.a., 1999).

(f) Entwicklung und Einsatz eines Prüfkorpus für Annotatoren
Für das Training des Kategorienschemas und der Annotation wird die Entwick-
lung eines Prüfkorpus empfohlen. Dazu werden Ressourcen gewählt und von min.
zwei Annotatoren annotiert, und deren Übereinstimmung geprüft. Er kann bei
entsprechender Überprüfung auch den Rang eines „Goldstandards“ erhalten.
Fragen aus dem Goldstandard können wiederum zur Kontrolle und zum Training
von Annotatoren eingesetzt werden, beispielsweise bei der Annotation von Bil-
dern (Sorokin & Forsyth, 2008). Routinierte Annotatoren werden dabei „zwi-
schendurch“ zur Überprüfung und aus Trainingszwecken Elemente des Prüfkor-
pus vorgelegt um dann die Übereinstimmung auszuwerten und auch um Feedback

26


zu geben. Oleson u.a. (2011) haben dies beispielsweise zur Qualitätssicherung bei
Annotationen mit Crowdsourcing-Angeboten gemacht.

(g) Zusammenarbeit von Archivaren und Kunden/Nutzern
Beim ORF werden Archivare wochenweise in Fachredaktionen platziert, arbeiten
also unmittelbar und räumlich nahe mit den Kollegen zusammen, um gezielt mit
den Denkweisen und Bedürfnissen der Kunden konfrontiert zu werden.

(h) Erhebung der Kunden/Nutzerbedürfnisse und -zufriedenheit
Auch Nutzerbefragungen sind eine Option. Sie dienen nicht nur der Qualitätssi-
cherung der Annotation, die sich ja durch die Nutzer/innen definiert, sondern
kann auch ein Aspekt der Kundenzufriedenheit sein. Hierbei werden Nutzer/in-
nen dazu befragt wie zufrieden sie mit den Rechercheergebnissen sind, wenn sie
beispielsweise folgendes erledigen:
– Suche nach Stock-Images/Videos für einen Bericht.
– Suche nach einem bestimmten Dokument.
– Suche nach allen Beiträgen zu einem Thema.
Es ist dabei ggf. zu überprüfen, wie häufig ist solche Anwendungsfälle überhaupt
sind bzw. welche Bedürfnisse Nutzer/innen überhaupt haben.
Eine weitere Fragestellung ist generell, welche Anforderungen eine Annotation er-
füllen muss. Neben der späterer Suche (Auffindbarkeit) können das z.B. auch Hin-
weise zur bisherigen Verwendung einer Ressource sein. In einem Workshop des
Salzburg NewMediaLab – The Next Generation im Mai 2011 wurde darauf auf-
merksam gemacht, dass es Redakteure, wenn sie beispielsweise eine Landschafts-
aufnahme suchen, nicht unbedingt eine Videosequenz erhalten wollen, die schon
sehr oft von Kollegen gefunden bzw. ausgewählt wurde.

(i) Erhebung des Nutzerverhaltens
Konkret auf die Annotation bezogen sollte auch der Frage nachgegangen werden,
inwiefern sich das Beschlagwortungssystem der Experten mit dem des End-An-
wenders deckt und zusammenpasst, sofern es nicht dieselben Personen sind. Ne-
ben Befragungen können auch Log-Dateien hier zur Auswertung hinzugezogen
werden (Wonach suchen Nutzer/innen? Was finden sie/ was finden sie nicht?).

27


28


TECHNOLOGISCHE UNTERSTÜTZUNG DER QUALITÄTSSICHERUNG

Im diesem Abschnitt wird gezeigt, wie Technologien die Qualitätssicherung von
der Annotationsprozesse unterstützen. Dabei greifen wir einige Aspekte auf, die
bereits im vorherigen Abschnitt konzeptionell beschrieben wurden und illustrie-
ren hier auch mit Hilfe von konkreten Screenshots von Produkten, wie sie unter-
stützt werden.

(a) Unterstützung bei der Erstellung und beim Management von Kategori-
enschemas (Taxonomien)
Bei der Erstellung eines unternehmensinternen Kategorienschema bzw einer Ta-
xonomie helfen Werkzeuge, die diesen Prozess gezielt unterstützen. Die Semantic
Web Company ist Partner des Salzburg NewMediaLab und bietet mit ihrem Pro-
dukt „PoolParty21“ ein entsprechendes Werkzeug an. Hier können übersichtlich
Taxonomien entwickelt, erstellt und verwaltet werden (vgl. Abbildung 6).

Abbildung 6: Taxonomieerstellung mit Poolparty.
Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/ (7.10.2012)

Den technischen Aufbau von Poolparty und seinem Thesauri-Management wird in
folgender Abbildung 7 beschrieben.

21
http://poolparty.biz/ (28.08.2012)

29

Technologische Unterstützung der Qualitätssicherung

Abbildung 7: Thesaurimanagement mit Poolparty.
Quelle: http://poolparty.biz/products/poolparty-thesaurus-manager/(10.10.2012)

(b) Steuerung des Annotationsprozess
Das Management der Annotationsprozesse, beispielsweise die Zahl der Annotato-
ren pro Ressource oder ob Annotatoren auch die Annotation ablehnen können,
wird ebenfalls durch Technologien unterstützt und liefern somit einen Beitrag zur
Qualitätssicherung. Beim Werkzeug „Teamware“, mit dem kollaborativ annotiert
werden kann schaut das entsprechende Interface folgendermaßen aus (siehe Ab-
bildung 8).

Abbildung 8: Annotationsmanagement mit Teamware.
Quelle: http://gate.ac.uk/teamware/ (10.11.2011)

30


Wie solche Prozesse optimal gestaltet werden können zeigt nicht nur die Erfah-
rung sondern ist auch Gegenstand empirischer Untersuchungen. So stellen Vond-
rick u.a. (2012) fest, dass es beim Annotieren von Videos sinnvoll ist (weil effizi-
enter) wenn in jedem Frame nur ein Ding markiert und beschrieben wird.

(c) Vergleich der Annotationen und Bereinigung bei Mehrfach-Annotation
Es wurde bereits beschrieben, dass es der Qualitätssicherung dient, wenn man die
Annotationen unterschiedlicher Personen derselben Ressource miteinander ver-
gleichen kann. Beim Werkzeug „Teamware“ werden entsprechende Kalkulationen
von Kappa automatisch durchgeführt und können Fehlermeldungen an das Anno-
tations-Management verschicken (siehe Abbildung 9).

Abbildung 9: Annotationsvegleich bei Teamware.

(d) Qualitätsprüfung mit Hilfe automatischer Annotationen
Automatische Annotationen können auch zum Einsatz kommen, um die Annota-
tionen eines einzelnen Annotators zu prüfen. Sehr häufig werden Ressourcen
nämlich nicht von mehreren Personen annotiert, so dass hier Vergleiche möglich
wären. Lässt man eine Ressource – sofern es eine geeignete automatische Annota-
tionsunterstützung gibt – automatisch annotiert, kann man davon ausgehen, dass
Übereinstimmungen der automatischen Annotation und des Annotators für „kor-
rekte“ Annotationen sprechen. Abweichungen können jedoch als mögliche Signale
für qualitative Mängel betrachtet werden. Auf alle Fälle ist ein solche Vorgehen,
dass die Abweichungen von den automatischen Vorschlägen prüft effektiver als
die kompletten Annotationen „per Hand“ zu überprüfen (siehe Huang u.a., 2008).
Ein solches Verfahren, dass von Safadi u.a. (2012) vorgestellt wird wird als „Active
Cleaning“ bezeichnet wird. Hierbei werden, sofern – z.B. auch automatisch gene-
rierte – Annotationen vorhanden sind, diejenigen gewählt, die die höchste Qualität
aufweisen. Ihnen gelingt auch an einem Testdatensatz der Nachweis, dass nach ei-
ner solchen Reinigung auch tatsächlich zur Verbesserung führt. Ähnlich bereini-

31


gen Vittayakorn & Hays (2011) so Annotationen von Bildern, die durch Crowd-
sourcing entstanden sind.

(e) Monitoring des Annotationsprozess
Qualitätssicherungsmaßnahmen sind auch solche, die aktuelle Prozesse in Form
von Kennzahlen monitoren und ausweisen. Auch hier bieten Werkzeuge Unter-
stützung, zur Illustration ist hier ein Screenshot von Teamware eingefügt (siehe
Abbildung 10).

Abbildung 10: Monitoring bei Teamware.

(f) Qualitätssicherung mit und von (semi-) automatischen Annotationen
Automatische Annotationen oder auch Empfehlungen für Annotationen können
allgemein als Unterstützung von Annotationsprozessen betrachtet werden. Es gibt
eine Reihe von Automatisierungstechniken, die bei der Annotation zum Einsatz
kommen, die auch als Qualitätssicherungsmaßnahmen betrachtet werden können.
Semi-automatische Annotationen sind dabei Verfahren, die manuell überprüft
werden, es gibt jedoch auch Systeme, die allein auf automatische Verfahren ange-
wiesen sind.
Bei der Beschreibung von Automatisierungstechniken könnte etwa unterschieden
werden: Sicherstellung von einheitlichen Schreibweisen, Erleichterung bei der
Auswahl von Vokabular (Vorschlag/Navigation), Hilfestellung bei der Beschrei-
bung des Inhalts (z.B. Hintergrundinformation zu Themen wie den Teilnehmern
bei Events), die Auflösung von Mehrdeutigkeiten (Disambiguierung), Bild-Extrak-
tion, Text-Transkriptionen, Erleichterung beim Hinzufügen von neuen Kategorien
zu bereits annotierten Assets, Hilfestellung nach der Annotation (z.B. Anreiche-
rung mit Überkategorien).

32


Diese automatisierten Annotationen bzw. Vorschläge dafür können dabei auch aus
von Webmaterialien oder simplen Nutzerkommentaren generiert werden. Yama-
moto und andere (2008) versuchen so Kommentare in Bulletin Boards und We-
blogs zu Videos auszuwerten, um daraus Annotationen zu entwickeln. Zhang u.a.
(2008) versuchen ähnliches mit Vlogs (also Video-Weblogs). Belhajjame u.a.
(2006) untersuchen, inwieweit Webservices automatisch annotiert werden kön-
nen. Sie stellen fest, dass auch rudimentäre existierende Informationen als Anno-
tationsvorschläge die (professionelle) Annotation erleichtern können. Andere
Forschungsgruppen haben ähnliche Untersuchungen erstellt, dabei variieren Da-
tenquellen und Auswertungsverfahren.
In einem bereits erschienenen Band der Linked Media Lab Reports (Schön und an -
dere, 2011) wurden Verfahren zusammengetragen, mit denen wiederum die Qua-
lität von Annotationsvorschlägen überprüft werden kann. Da sich diese auf „auto-
matische“ Annotationen bzw. Annotationsvorschläge beziehen, lassen sich diese
Verfahren – wie im folgenden geschehen – leicht auf die Qualitätsüberprüfung von
automatischen Annotationsverfahren übertragen:
Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol-
genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe-
rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von
Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in-
nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten:
(1) Befragung von Experten zur Qualität der empfohlenen Annotationen,
(2) direkter Vergleich der Annotationsempfehlungen durch Befragung von
Experten,
(3) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An-
satz),
(4) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations-
vorschlägen) sowie
(5) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor-
schlägen.
Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an
der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig
unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis-
tierende Datensätze genutzt werden können.
(6) Vergleich der Annotationen von Experten und mit den Annotationen, die
das System vorschlagen würde, sowie
(7) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten.
Die Verfahren werden detailliert bei Schön und andere (2011) beschrieben.

33


(g) Einsatz von Empfehlungssystemen für Annotationsvorschläge
Empfehlungssysteme für Annotationen werden immer häufiger eingesetzt, um
den Prozess der Annotation zu vereinfachen und auch um sie zu verbessern 22.
Empfehlungssysteme für Annotationen beruhen dabei auf ganz unterschiedlichen
Quellen und Verfahren (vgl. Schön, Kurz u.a., 2011). Wie allgemein bei Empfeh-
lungssystemen gibt es auch bei den Empfehlungen von Annotationen zwei Verfah-
ren: das inhaltsbasierte Filtern und das kollaborative Filtern. Werden Empfehlun-
gen für Annotationen gegeben, wird in der Regel das inhaltsbasierte Filtern einge-
setzt, dabei beruhen die Empfehlungen auf den Eigenschaften der Elemente, die
empfohlen werden. Hier kommen häufig Verfahren der Datenextraktion zum Ein-
satz, oft wird dabei auch auf Thesauri zurückgegriffen. Es gibt aber auch Ansätze
bei Empfehlungen von Annotationen, bei denen kollaboratives Filtern (engl. „Col-
laborative Filtering“) eingesetzt wird: z.B. werden bei Delicious23 häufig verwen-
dete Tags vorgeschlagen. Auch gibt es vielfach personalisierte Vorschläge („be-
reits verwendete Tags“).
Es gibt mehrere bereits im letzten Absatz skizzierte Verfahren, die grundsätzlich
zur Verfügung stehen, um die Qualität von Empfehlungen für Annotationen und
entsprechender Systeme zu bewerten (siehe Schön, Kurz u.a. 2011). Diese Strate-
gien der Evaluation von Annotationsempfehlungen sind jedoch bisher teils noch
gar nie, oder nur selten, eingesetzt worden.
Eine interessante Maßnahme zur Qualitätssicherung von Annotationen bzw. zur
Qualitätsverbesserung der Annotationsempfehlungen möchten wir exemplarisch
vorstellen: Empfehlungsalgorithmen für Annotationen können nämlich – ganz sel-
ten – auch durch den Nutzer beeinflusst werden. Mit der ALOE-Plattform wird
derzeit versucht, eine Schnittstelle zu entwickeln, die es Nutzern erlaubt, selbst
die Regeln für die Erstellung der Tag-Vorschläge zu steuern. Wie die Abbildung
der derzeitigen Nutzeroberfläche zeigt (s. Abbildung 11. S. 35), kann beispielswei-
se vom Nutzer festgelegt werden, ob Tag-Vorschläge aus dem Tagging-Verhalten
aller ALOE-Nutzer generiert werden sollen, oder ob nur Kontakte einbezogen
werden sollen.

22
Wir haben bereits ausführlich Empfehlungssysteme für Annotationen vorgestellt und
diskutiert, wie man die Qualität ihrer Empfehlungen bewerten kann (Schön, Kurz u.a.
2011).
23
http://delicious.com/ (28.08.2012)

34


Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge.
Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688

(h) Visualisierung der Vertrauenswürdigkeit von Annotationen und Tags
Wenn Systeme auf Social Tagging aufbauen, haben sie mit dem Cold-Start-Pro-
blem zu kämpfen: Solange keine Tags vorhanden sind, sind entsprechende Doku-
mente z. B. über entsprechende Suchfunktionen nicht auffindbar. Um dieses Pro-
blem zu entschärfen, werden automatische Tags vergeben, die beispielsweise
durch Methoden des Text-Mining (siehe Abschnitt zu Texten) ermittelt werden.
Diese automatischen Tags können also auch fehlerhaft oder unsinnig sein. Im Pro-
jekt „InterEDU“ des Salzburg NewMediaLab wurde daher ein System der Quali-
tätssicherung eingeführt um automatische Tags und Tags der Lehrer unterschei-
den zu können. Zu diesem Zweck wurde folgende Markierung der Lernmaterialien
eingeführt:
– Wolken kennzeichnen Lernmaterialen, denen automatisch Tags zugewiesen
wurden, die also auf statistischen Analysen beruhen und fehlerhaft sein können.
– Wolken mit einer durchbrechenden Sonne markieren Lernmaterialien, bei de-
nen ein beliebiger Nutzer bereits eigene Tags ergänzt hat (und ggf. die automa-
tisch ermittelten übernommen hat).

35


– Eine Sonne haben schließlich die Lernmaterialien, wenn ein Administrator oder
Gegenstandsbetreuer das Lernmaterial über eine spezielle Schaltfläche freigege-
ben hat. Jede weitere Bearbeitung führt wieder zur vorherigen Stufe (Wolken
mit durchbrechender Sonne), so dass das Lernmaterial einer erneuten Freigabe
durch einen Administrator oder Gegenstandsbetreuer bedarf.
Statt der Wolken bzw. der Sonne sind alternativ auch Darstellungen von Ver-
kehrsampeln denkbar. Nicht immer ist so eine relativ rigide Kontrolle der Qualität
von Tags notwendig, wie es im Falle der Lernressourcen in diesem Projekt erwar-
tet wurde. Aber es zeigt sich an diesem Beispiel, dass auch hier die Qualität von
Social-Tagging-Systemen noch erhöht werden kann.

(i) Spielbasierte Ansätze zur Qualitätsprüfung
Um im größeren Umfang Tags zu Bildern zu erhalten, entwickelten kreative Köpfe
das ESP-Game (www.espgame.org, von Ahn & Dabbish, 2004). Die Spielidee liegt
darin, dass Spieler zu Bildern Tags eingeben, von denen sie annehmen, dass sie
auch von anderen Nutzern verwendet werden und je nach Übereinstimmung
Punkte erhalten. Dabei hat sich gezeigt, dass schnell allgemeine Tags verwendet
werden, so dass diese Worte inzwischen ausgeschlossen werden, was das Spielen
jedoch nicht weniger spannend macht, sondern eher noch herausfordernder.
Die Idee des ESP-Spiels wurde inzwischen von anderen aufgegriffen. So hat
Google den „Google Image Labeler“ implementiert und erhält durch dessen Spieler
viele Metainformationen über Bilder. Auch wurde die Spielidee auf andere Medien
übertragen (z.B. auf Musikstücke: „Tag a Tune“, via www.espgame.org). Hier wer-
den Musikstücke vorgespielt, die getaggt werden sollen. Andere wiederum entwi-
ckelten daraus ein Spiel (und Patent), das auf einem horizontalen Display gespielt
wird (Diakopoulos & Chiu, 2007).
Nun stellt sich die Frage, ob solche Spielideen nicht auch zur Qualitätssicherung
von Annotationen in Medienarchiven eingesetzt werden könnten. Eine Möglich-
keit wäre, dass Spieler Punkte für übereinstimmende Annotationen erhalten, Ab-
weichungen aber tatsächlich auch zur Kontrolle der Annotation verwendet wer-
den.
Im Kompetenzzentrum für Neue Medien, „Salzburg NewMediaLab – The Next Ge-
neration“ wurde von der Universität Innsbruck das Spiel „TubeLink“ entwickelt
und evaluiert24, das auf dem „Wisdoms Of A Crowd“-Ansatz beruht: Mehrere Spie-
ler geben unabhängig voneinander Antworten zur gleichen Problemstellung. Bei
TubeLink ordnen die Spieler aus einer Menge vorgegebener (passender und un-
passender) Begriffe einem Video jene Begriffe zu, die sie für passend halten, z.B.
ein Begriff für etwas, was in dem Video abgebildet ist, oder eine Stimmung, die sie
mit dem Video assoziieren.

24
Die folgenden Ausführungen stammen von Michael Thaler, STI Innsbruck

36


Quelle: TubeLink (Stand 10.12.2011)

Aus der Gesamtsicht der zugeordneten Begriffe aller Mitspieler erhält man nun
nicht nur eine Auswahl von mehrheitlich als passend betrachteten Annotationen,
sondern die Annotationen werden auch – mit einer gewissen „Unschärfe“ – auf
der Zeitleiste des Videos angeordnet. Die dahinterliegende Annahme ist, dass
beim Heranziehen mehrerer Antworten zur gleichen Problemstellung das Ergeb-
nis zum richtigen konvergiert (d.h. qualitativ besser ist als eine Einzelbeurtei-
lung).
Die Umsetzung bzw. Evaluation des Spiels und seiner Ergebnisse zeigt, dass es
sich nicht als trivial erweist, den spielerischen Ansatz umzusetzen: Die Auswer-
tung der Antworten ist verhältnismäßig einfach. Ein Spiel zu entwickeln und eine
konstante Anzahl an Spieler zu erhalten, hat sich jedoch als schwierig erwiesen.
Hier alleine Punkte zu vergeben erscheint zu wenig um hier wiederkehrende Spie -
ler zu finden.

Quelle: TubeLink (Stand 10.12.2011)

37


Die Idee, mit spielerischen Ansätzen Annotationen für Videos zu erhalten und die
Qualität der so erhaltenen Annotationen zu bewerten und zu sichern wird auch an
anderer Stelle im Rahmen eines Dissertationsvorhabens erprobt (s. Gligorov &
Schreiber, 2012) und geplant (Riek u.a., 2011) 25.

(j) Qualitätssicherung auf Seiten der Nutzer/innen
Gerade wenn es sich um nutzergenierte Daten und Anmerkungen handelt und
nicht immer ganz klar ist, wie vertrauenswürdig diese sind, können auf Seiten der
Nutzer/innen Werkzeuge eingesetzt werden, die eine entsprechende Auswahl
möglich machen.

Abbildung 14: Annotationsformen bei Videolyzer
Quelle: Diakopoulos & Essa, 2008, figure 3

25
Vergleiche dazu auch das Projekt „Waisda?“: 2009 wurde von Forschern der VU Univer-
sität Amsterdam im Rahmen des europäischen Forschungsprojekts PrestoPRIME ein Vi-
deo-Annotations-Spiel gestartet, bei dem die Mitspieler aufgefordert wurden, mit Be-
grifen zu annotieren, was sie sehen und hören: http://imagesforthefuture.com/en/rese-
arch/waisda-video-labeling-game-evaluation-report (2012-11-26)

38


Ein Beispiel dafür, wie Nutzer/innen selbst bei der Qualitätssicherung mitwirken
könnten, ist der Forschungsprototyp Videolyzer 26, bei dem politisch Interessierte
Videos zu politischen Themen annotieren können und jeweils die Annotationen
anderer annotieren können (Diakopoulos & Essa, 2008). Die Abbildung 14 zeigt,
welche Annotationen so im Einzelnen möglich sind.
In diesem und weiteren ähnlichen Forschungsprojekten geht es also letztlich dar-
um, Aussagen über die Vertrauenswürdigkeit der Annotationen zu erlangen: Dar-
aus ergibt sich als weiteres Forschungsgebiet die Möglichkeiten (automatisch)
einschätzen zu können, wie vertrauenswürdig Annotationen sind. Ceolin u.a.
(2010) untersuchen beispielsweise, mit welchem Verfahren professionelle Anno-
tationen (von naturwissenschaftlichen Museen) die höchsten Vertrauenswürdig-
keit-Bewertungen erhalten und mit geringer Fehlerwahrscheinlichkeit als ver-
trauenswürdig identifiziert werden. Solche Erfahrungen könnten später genutzt
werden, um gute und schlechte externe Annotatoren und ihre Annotationen kor-
rekt einordnen zu können.
Ein weiteres gutes Beispiel, vor allem eines, das tatsächlich im großen Umfang ge-
nutzt wird, ist die Qualitätssicherung beim OpenStreetMap-Projekt.27 Im Open-
StreetMap Projekt28 wird das Ziel verfolgt freie geographische Daten zu erfassen
und allen Benutzern kostenfrei zur Verfügung zu stellen. Die Daten werden welt-
weit von freiwilligen Nutzern erfasst und editiert. Zu den einzelnen geographi-
schen Daten können zusätzliche Eigenschaften (Map Features) in Form von
Schlüsseln (Tags) und Werten (Values) gespeichert werden. OpenStreetMap lässt
prinzipiell alle möglichen Tags und Values zu. Um die Anwendung der freien Geo-
daten zu erleichtern wird von der Community ein Leitfaden für die Erfassung und
Bearbeitung der Map Features vorgeschlagen. Dieser Leitfaden ist im OpenStreet-
Map-Wiki29 dokumentiert.
Das Wachstum der Anzahl der Nutzer/innen und damit einhergehend auch des
Datenbestandes ist in den letzten Jahren groß (siehe Abbildung 15). Eine große
Herausforderung für die Zukunft der OpenStreetMap ist die Vervollständigung,
Wartung und Verbesserung der Daten. Damit wird auch ein Schwerpunkt auf die
qualitative Verbesserung der Daten gelegt.

26
http://www.videolyzer.com/ (2012-08-23)
27
Autor der OSM-Beschreibung: Sven Leitinger, Salzburg Research Forschungsgesellschaft
28
http://www.openstreetmap.org (2011-12-12)
29
http://wiki.openstreetmap.org/wiki/DE:Map_Features (2011-12-12)

39


Quelle: OpenStreetMap Contributors, License: CC-BY-SA 2.0,
http://wiki.openstreetmap.org/wiki/File:Osmdbstats1.png (26.11.2012)

Die Qualitätssicherung in OpenStreetMap erfolgt durch die Community selbst. Die
Datenqualität kann in folgende Teilbereiche unterschieden werden: geometrische
Qualität, Qualität der Map Features und die Qualität des Abdeckungsgrades. Um
die geometrische Qualität und die Qualität des Abdeckungsgrades zu verbessern
existieren bereits verschiedene Werkzeuge zur allgemeinen Meldung von Fehlern,
spezielle Karten zur Fehlersuche, Werkzeuge zur Überprüfung von Wegen und
Relationen für die Erstellung von Routing-Graphen30. Diese Werkzeuge wurden
vor allem für den Einsatz auf desktop-basierten Systemen entwickelt. Dazu ist es
in vielen Fällen nicht notwendig die Daten im Feld zu erfassen und zu verbessern,
sondern die Datenqualität über die zu Hilfenahme von freien Luft- und Satelliten-
bildern zu verbessern.
Für die Verbesserung der Map Features ist es hingegen notwendig die Daten vor
Ort zu verbessern. Bis jetzt gibt es nur wenige mobile Anwendungen zur Erfas-
sung und Verbesserung von OpenStreetMap-Daten auf mobilen Endgeräten wie
Smartphones oder Tablet PC. Mit der freien mobilen Applikation „OSMapTuner“
können in Zukunft vor Ort die einzelnen Map Features und deren Tags und Values
anhand des OSM-Wikis validiert werden und fehlende bzw. fehlerhafte Daten ver-

30
http://wiki.openstreetmap.org/wiki/Qualitätssicherung (2011-12-12)

40


bessert werden (siehe Abbildung 16). Der OSMapTuner wurde im März 2012 für
alle OpenStreetMap-Benutzer weltweit auf Google play bereitgestellt31.

(rechts) Signalisierung von fehlenden Tags durch die automatische Tag-Validierung.
Diese können durch Auswahl geändert werden.
Quelle: Salzburg Research

31
https://play.google.com/store/apps/details?id=at.srfg.osmaptuner (28.08.2012)

41


42


DER EINSATZ UND ERFAHRUNGEN MIT QUALITÄTSSICHERUNG VON
ANNOTATIONEN IN MEDIENARCHIVEN

Neben unserer allgemeinen Übersicht waren wir interessiert daran, auch tiefere
Einblicke in die Praxis der Qualitätssicherung von Annotationen in Medien-
archiven zu erlangen. Wir haben dazu Ausführungen vom Österreichischen Rund-
funk (ORF), Dokumentation und Archive, sowie vom Archivar des Privatsenders
Servus TV erhalten.

Qualitätssicherung der Annotation in der täglichen Praxis des
ORF-Fernseharchives32
Zweck der Annotation im ORF-Fernseharchiv ist grundsätzlich einerseits die voll-
ständige Dokumentation der Fernsehinhalte und andererseits die rasche Wieder-
auffindbarkeit und weitere Nutzung der Inhalte durch Redakteure und Archivmit-
arbeiterinnen und -mitarbeiter. Viele Archivmitarbeiterinnen und -mitarbeiter
sind in beiden Bereichen tätig – sowohl in der Auswertung als auch in der Recher-
che. Es existiert ein gemeinsamer „Wortschatz“. Annotateure wissen, wonach re-
cherchiert wird, Rechercheure wissen, wie annotiert wurde. Im Gegensatz zu Da-
tenbanken und Suchmaschinen mit einer breiten User-Nutzung, die auch eine
große Diversität der Annotation notwendig machen, gibt es für das ORF-Fernse-
harchiv sehr klare Auswertungsrichtlinien, eine Einschulung von Annotateuren
sowie eine (derzeit eher oberflächliche) Kontrolle der Annotationen.

Auswertungsrichtlinien
Wichtigstes Instrument der Qualitätssicherung der Annotation ist das von einigen
Archivmitarbeiterinnen und -mitarbeitern in einer Arbeitsgemeinschaft zusam-
mengestellte, sogenannte „Musterbuch“. Diese schriftlich festgehaltenen Auswer-
tungsrichtlinien dienen einer möglichst einheitlichen Formulierung bei der inhalt-
lichen Erschließung von Dokumenten – Grundlage für eine rasche und zielführen-
de Recherche. Ergänzungen und Aktualisierungen zu den Richtlinien sind dabei
notwendig und durchaus erwünscht.
Im Musterbuch festgeschrieben sind – entsprechend den Auswertungsfeldern der
im ORF genutzten Archivdatenbank „FESAD“ – Richtlinien zur Titelansetzung, zur
Personenangabe, zum Sachinhalt einer Sendung/eines Beitrages, zur Bildbe-
schreibung sowie zu geografischen Angaben.
Der Sachinhalt eines Dokumentes soll in knapper, prägnanter, journalistischen
Ansprüchen genügender Weise – analog einer Zeitungs- bzw. Agenturmeldung –

32
Autoren: Mag. Andrea Wolfinger / Redakteurin Dokumentation / ORF – Dokumentation
& Archive – FZ2, Text zu „Einschulung neuer Annotateure“: B.A. Michael Vielhaber
M.P.O.S. / Redakteur Dokumentation / ORF – Dokumentation & Archive - FZ2)

43

Der Einsatz und Erfahrungen mit Qualitätssicherung von Annotationen in Medienarchiven

in ganzen Sätzen formuliert sein, zum Verständnis wichtige Informationen enthal-
ten und für künftige Recherchen relevante Zentralbegriffe beinhalten.
Im Feld Bildinhalt erfolgt eine mit Stichworten frei formulierte Motivbeschrei-
bung unter Verwendung von Synonymbegriffen (z.B. Flugzeug, Passagiermaschi-
ne, Boeing 737, Lufthansa-Maschine,…) und unter Berücksichtigung der gestalteri-
schen Wiederverwertbarkeit der Bilder und deren sinnvoller Abfragbarkeit.
Wichtigste Orientierungshilfe für die Bildbeschreibung stellen die im Musterbuch
festgelegten Motivparameter dar. Sie dienen der Vereinheitlichung von Standard-
situationen, um einerseits die Motivbeschreibung zu erleichtern und andererseits
die Suche und Wiederverwertbarkeit der Inhalte zu erleichtern. Im Anschluss an
die Auflistung der Motivparameter erfolgt eine genaue Definition mit Beispielen
aus der Annotations-Praxis (vgl. Abbildung 17).
STRASSENSZENE
Der Motivparameter STRASSENSZENE wird für typisches Straßenleben (Atmo) einer
Stadt/eines Ortes verwendet. Ländertypische bzw. nicht zuordenbare Straßenszenen
können (zusätzlich) auch mit STRASSENSZENE-Land/Region bezeichnet werden. Außer-
dem können genauere Beschreibungen in runder Klammer ergänzt werden. STRAS-
SENSZENE- wird immer vorgestellt, der Hauptsuchbegrif mit Bindestrich angefügt.
Mehrere Einstellungen werden mit div. STRASSENSZENE- angegeben.
BEISPIEL:
STRASSENSZENE-Belgrad (Winter)
STRASSENSZENE-London (Regen, PKW-Verkehr, Passanten)
STRASSENSZENE-Rajasthan (STRASSENSZENE-Indien)
PLURAL: div. STRASSENSZENE-Osteuropa
Abbildung 17: Auszug aus dem Musterbuch des ORF, Beispiel „Strassenszene“
Quelle: ORF

Geografische Angaben zu einer Sendung/einem Beitrag werden ebenfalls nach im
Musterbuch festgelegten formalen und inhaltlichen Kriterien (z.B. Reihung, Tren-
nung, Großschreibung, Abkürzungen) gemacht. Eine Werteliste, wie sie im bis
Ende 2008 verwendeten Archiv-System „FARAO“ angeboten wurde und die für
Staaten eine einheitliche Ansetzung erzwungen hat, existiert in FESAD nicht mehr
und stellt in diesem Zusammenhang auch eine Schwächung der Qualitäts-
sicherung dar. Fehlerhafte Schreibweisen werden nicht mehr zurückgewiesen.
Zusätzlich zu den eben genannten Freitextfeldern (z.B. Titel, Personen, Sachinhalt,
Bildinhalt, Indexat Geo) bietet FESAD aber in anderen Bereichen die Möglichkeit
einer inhaltlichen Erschließung über Wertelisten. So kann der Inhalt einer Sen-
dung/eines Beitrages oder der gestalterische Aufbau durch die Auswahl zutref-
fender Begriffe aus einer entsprechenden Werteliste klassifiziert werden. Wobei
die Auswahl mehrerer Begriffe möglich und meist auch notwendig ist.

44


Der Bestand der inhaltlichen Sachbegriffe wurde im Laufe der Jahre erweitert. Die
Verwendung der Sachbegriffe ist somit nicht konsistent. Die Einführung bzw. Auf-
lösung eines Begriffes entwickelt sich aus der täglichen Arbeit. Bei der Auswer-
tung und bei der Recherche können durch neue Themenschwerpunkte neue Sach-
begriffe erforderlich werden. Andere früher durchaus verwendete Begriffe wer-
den obsolet. Im Laufe der Zeit wurden die Schlagworte auch vereinfacht oder mo-
difiziert.
Im Musterbuch folgt auf die Auflistung der Sachbegriffe (Schlagworte) wieder eine
genaue Definition mit Beispielen aus der Annotations-Praxis (vgl. Abbildung 18).
EHRUNG
Preisverleihung, Auszeichnung, Medaillen-Verleihung,... im Bereich Kunst, Kultur,
Sport, Unterhaltung, Wirtschaft, Wissenschaft, Soziales usw.
BEISPIEL:
Historiker Saul Friedländer erhält Bruno-Kreisky-Preis
EHRUNG; HISTORIE; KULTUR; PR; WISSENSCHAFT
Oscar-Verleihung
EHRUNG; KULTUR; MEDIEN; UNTERHALTUNG
Siegerehrung nach Weltcup-Slalom
EHRUNG; INTERNATIONAL; SPORT
Rot-Kreuz-Mitarbeiter werden für ihren Einsatz geehrt
EHRUNG; EXEKUTIVE; SOZIALES
Abbildung 18: Auszug aus dem Musterbuch des ORF, Beispiel „Ehrung“
Quelle: ORF

Die Auswertungsrichtlinien stellen eine unabdingbare Voraussetzung für die
gleichbleibend hohe Qualität der Annotation dar. Sie sind auch wichtigster Be-
standteil der Einschulung neuer Annotateure.

Einschulung neuer Annotateure
In einem ersten Schritt werden neue Annotateure mit einer der wesentlichsten
Herausforderungen der audiovisuellen Inhaltserschließung für ein produzieren-
des und produktionsunterstützendes Fernseharchiv konfrontiert, nämlich jener
der subjektiven Wahrnehmung. Der Umstand, dass audiovisuelle Eindrücke nicht
neutral, sondern subjektiv wahrgenommen und verarbeitet werden, stellt ein ve-
ritables Problem dar, da die Dokumentation der Eindrücke auch entsprechend in-
dividuell variiert. Es gilt daher, ein entsprechendes Problembewusstsein zu schaf-
fen. Das passiert, indem neue Annotateure gebeten werden, eine Sequenz von drei
bis vier Einstellungen bzw. etwa 15-25 Sekunden Dauer bildinhaltlich zu erfassen.
Der genaue Arbeitsauftrag lautet: „Verschriftlichen Sie bitte, was Sie nun sehen“.
Daraufhin wird den künftigen Archivmitarbeitern eine audiovisuelle Sequenz vor-
geführt. Wenn in weiterer Folge die unterschiedlichen Auswertungen besprochen
werden, wird transparent, dass niemand das exakt selbe Motiv wahrgenommen

45

Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.

Ähnlich wie Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche. (20)

Qualitätssicherung bei Annotationen. Soziale und technologische Verfahren in der Medienbranche.