SlideShare ist ein Scribd-Unternehmen logo
1 von 82
Downloaden Sie, um offline zu lesen
Schriftenreihe: Social media
           band 3



                                                                
                                                                
© sxc.hu




                                                        
                                    


                                                B
                                                "                   
                                                                   



           Empfehlungen im Web
           Konzepte und Realisierungen



           Sandra Schaffert, Tobias Bürger, Wolf Hilzensauer,
           Cornelia Schneider und Diana Wieden-Bischof
Sandra Schafert

     Empfehlungen im Web
      Konzepte und Realisierungen

mit Beiträgen von Tobias Bürger, Wolf Hilzensauer,
  Cornelia Schneider und Diana Wieden-Bischof
Salzburg NewMediaLab (SNML), das Kompetenzzentrum für Neue Medien, gab die
vorliegende Broschüre im Rahmen des Projekts „ComStudy“ (Leitung: Dr. Sandra
Schafert) in Aufrag. Unter der Leitung von DI Georg Güntner arbeitet das SNML dar-
an, digitale Inhalte clever zu strukturieren, verknüpfen, personalisieren, für alle auf-
fndbar zu machen und nachhaltg zu nutzen. Das SNML ist ein industrielles Kompe-
tenzzentrum im Rahmen der Aktonslinie Kind des Bundesministeriums für Wirtschaf
und Arbeit (BMWA) und wird gefördert aus Miteln des BMWA und des Landes Salz-
burg. Homepage: newmedialab.at




© Salzburg NewMediaLab 2010

ISBN 978-3-902448-16-3

Sandra Schafert, Tobias Bürger, Wolf Hilzensauer,
Cornelia Schneider und Diana Wieden-Bischof:

Empfehlungen im Web.
Konzepte und Realisierungen.

Band 3 der Reihe „Social Media“,
herausgegeben von Georg Güntner und Sebastan Schafert

Verlag und Herstellung: Salzburg Research, Salzburg
Umschlaggestaltung: Daniela Gnad, Salzburg Research
Lektorat: Andreas Strasser und Renate Steinmann, Salzburg Research

Bibliografsche Informaton der Deutschen Natonalbibliothek:

Die Deutsche Natonalbibliothek verzeichnet diese Publikaton
in der Deutschen Natonalbibliografe; detaillierte bibliografsche
Daten sind im Internet über htp://dnb.d-nb.de abrufar.
VORWORT
Das Kompetenzzentrum für Neue Medien, das Salzburg NewMediaLab, betrachtet im
Rahmen seines Forschungsprogramms die Wechselwirkung zwischen digitalen Inhalten
und ihren Autor(inn)en bzw. Konsument(inn)en aus technologischer und sozialer Per-
spektve. Dabei ergibt sich naturgemäß die Frage, welche Art von Beziehungen zwischen
Autor(inn)en und Leser(innen) untereinander, aber auch zu den von ihnen erstellten
bzw. konsumierten Inhalten besteht. Weiters untersuchen wir, wie sich die aufgrund die-
ser Beziehungen entstehenden Gemeinschafen auf die Atraktvität und Nutzung der In-
halte sowie auf das Angebot von erweiterten Diensten auswirkt.
Unter der Bezeichnung „ComStudy“ wurde im Oktober 2009 am Salzburg NewMediaLab
eine Studie gestartet, die sich mit Orienterungs- und Entscheidungshilfen für den Auf-
bau und die Nutzung von Online-Communitys beschäfigt. Dabei betrachten wir auch
die in der Wechselwirkung von Inhalten und Communitys anfallenden Metainformato-
nen und die auf den Inhalten basierenden Dienste, wie etwa Empfehlungs- und Reputa-
tonssysteme.
Das Informatonsangebot im Internet ist mitlerweile so angewachsen und unübersicht-
lich geworden, dass Suchmaschinen alleine die Flut der Daten für die Benutzer(innen)
nicht mehr ausreichend fltern und darstellen können. Deswegen gehen fortschritliche
Informatonsplatormen und digitale soziale Netzwerke zunehmend dazu über, das Pa-
radigma des Suchens umzukehren: Nicht mehr die Benutzer(innen) suchen nach Infor-
matonen, sondern die Informatonen suchen (und fnden) die Benutzer(innen). Voraus-
setzung dafür sind Empfehlungssysteme, die Informatonen nach unterschiedlichen Ge-
sichtspunkten – z.B. anhand der Profle der Anwender(nnen) – (semi-)automatsch aus-
wählen, fltern und vorschlagen. Der vorliegende Band stellt Ansätze und Methoden für
Empfehlungssysteme vor, zeigt mögliche Einsatzgebiete auf und gibt praktsche Hinweise
für die Implementerung solcher Systeme.
Die Darstellung der Analyse und von deren Ergebnissen erfolgt – wie in den beiden vor-
angehenden Publikatonen – stets unter dem Gesichtspunkt, den Leserinnen und Lesern
praktsche Orienterungs- und Entscheidungshilfen für die Konzepton und Umsetzung
zur Verfügung zu stellen. Im Namen des Salzburg NewMediaLab wünsche ich Ihnen in
diesem Sinne bei der Lektüre viele brauchbare Anregungen und viel Erfolg bei der prak-
tschen Umsetzung in Ihren Online-Communitys oder bei Ihren Informatonssystemen.


Georg Güntner
Leiter des Salzburg NewMediaLab
Februar 2010
DANK & ANMERKUNG ZUR SCHREIBWEISE
Herzlichen Dank an Prof. Dr. Peter Dolog, Dr. Hendrik Drachsler sowie Dr. Marco Kalz für
Ihre Bereitschaf, uns in diesem Studie einige Fragen zu beantworten und uns so an ih-
rer Expertse teilhaben zu lassen.
Danke auch an meine Kolleginnen und Kollegen: an Mag. Diana Wieden-Bischof und
Mag. Wolf Hilzensauer für ihre Unterstützung bei der Recherche und Beschreibung von
Beispielen; an Dr. Tobias Bürger für seinen Beitrag zu LIVE und sein Feedback zur Studie
sowie an DI (FH) Mag. Cornelia Schneider für ihren Beitrag zu Empfehlungssystemen im
Gesundheitsbereich, an Mag. Renate Steinmann und Dr. Andreas Strasser für das Lekto-
rat, danke auch an Daniela Gnad für das Titelbild!
Da die Gefahr groß ist, die eine oder den anderen zu übersehen, der bei den Trefen,
oder in E-Mails oder beim informellen Gespräch beim Kafee hilfreich war, danke ich den
weiteren Kolleg(inn)en ohne einzelne Namen zu nennen: Wie bei jeder der Veröfentli-
chungen im Rahmen des Projektes ComStudy stecken auch hier hinter vielen Ideen und
Hinweisen auf interessante Tools, Projekte, Veröfentlichungen und Expert(inn)en zahl-
reiche Kolleg(inn)en des Salzburg NewMediaLab und der Salzburg Research Forschungs-
gesellschaf. Es macht Spaß, mit so vielen cleveren Köpfen zusammenzuarbeiten!
Schließlich, wie bei den bisherigen Veröfentlichungen dieser Reihe auch hier: Um die-
sen Beitrag nicht durch weibliche Endungen, Bindestriche und Klammern zu einem zwar
korrekten, aber auch schwerer zu lesenden Werk zu machen, haben wir im Folgenden
durchgehend darauf verzichtet, die gendergerechte Schreibweise zu verwenden. Zudem
haben wir uns bemüht, auf englische Ausdrücke oder Lehenswörter zu verzichten, wo
sie uns unnötg erschienen – aber im Bereich des Internets und der modernen Manage-
mentheorie kommt man leider viel zu of nicht darum herum.
Sandra Schafert
Salzburg Research Forschungsgesellschaf
Februar 2010
INHALTSVERZEICHNIS
1 Einleitung und Hintergrund........................................................................................ 9
   1.1 Empfehlungen im Web........................................................................................... 9
   1.2 Schwerpunkte, Forschungsfragen und Vorgehen.................................................10
   1.3 Hintergrund.......................................................................................................... 10
2 Empfehlungssysteme: Ansätze und Methoden......................................................... 13
   2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen................................. 13
   2.2 Quellen für Empfehlungssysteme.........................................................................14
   2.3 Personalisierte und allgemeine Empfehlungen ....................................................15
   2.4 Inhaltsbasiertes Filtern......................................................................................... 15
   2.5 Kollaboratves Filtern............................................................................................22
   2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen..................25
   2.7 Ähnlichkeit und weitere Kriterien.........................................................................28
   2.8 Nachteile und Herausforderungen der Ansätze ...................................................28
   2.9 Hybride Lösungen.................................................................................................30
3 Empfehlungssysteme: Ausgewählte Einsatzgebiete.................................................. 35
   3.1 Überblick über fünf ausgewählte Einsatzgebiete..................................................35
   3.2 Experten- und Arbeitsplatzsuche im Web............................................................ 36
   3.3 Partnersuche im Web........................................................................................... 39
   3.4 Produktempfehlungen .........................................................................................42
   3.5 Empfehlungssysteme für Web-Materialien.......................................................... 51
   3.6 Spezielle Einsatzgebiete und weitere Empfehlungssysteme................................. 58
4 Entwicklung von Empfehlungssystemen...................................................................67
   4.1 Entwicklung im Überblick..................................................................................... 67
   4.2 Aktve Einbindung von Nutzern............................................................................ 67
   4.3 Ziel und Zweck des Empfehlungssystem...............................................................68
   4.4 Konzeptonelle Beschreibung............................................................................... 68
   4.5 Implementerung ................................................................................................69
   4.6 Evaluaton: Überprüfung der Qualität und Nützlichkeit von Empfehlungen.........70
5 Ausblick....................................................................................................................73
Literatur und Quellen.................................................................................................. 75
Autorinnen und Autoren............................................................................................. 80
Social Media – Weitere Bände.....................................................................................80
1 EINLEITUNG UND HINTERGRUND
 1.1 Empfehlungen im Web
   Wachsende Datenbestände machen es schwierig sich zu orienteren. Empfehlungssyste-
   me werden daher immer häufger eingesetzt. Sie schlagen zum Beispiel Produkte,
   Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musikgruppen oder poten-
   zielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen
   in Social-Media-Anwendungen sind Empfehlungssysteme gefragt, damit interessante
   Beiträge und Personen nicht „untergehen“. Auch bei der gezielten und personalisierten
   Werbung im Web oder bei Suchmaschinen werden Verfahren der Empfehlungssysteme
   eingesetzt. Empfehlungen unterstützen auch Prozesse wie die Reiseplanung, das Lernen,
   das Tagging und auch das Verschreiben von Arzneimiteln.
   Empfehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu
   empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter
   einem Empfehlungssystem ein System, „das einem Benutzer in einem gegebenen Kon-
   text aus einer gegebenen Enttätsmenge aktv eine Teilmenge „nützlicher“ Elemente
   empfehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufg als „Recom-
   mender-Systeme“ bezeichnet.
   Als Voraussetzung für die Notwendigkeit von Empfehlungssystemen betrachtet Klahold
   (2009) das Anwachsen von Informatonen und den exponentellen Ansteg des Datenvo-
   lumens im 20. Jahrhundert (S. 16). Auch wenn es nicht als Empfehlungssystem bezeich-
   net wird, ist Klahold (2009) zufolge, die erste akademische Beschäfigung mit einem
   Empfehlungssystem das Werk von Luhn (1958): Er beschreibt ein System, dass selektv
   Informatonen an bestmmte Organisatonen verteilt.
   Ein Überblick über aktuelle Realisierungen und Erfahrungen mit solchen Empfehlungs-
   systemen, die als Service für Nutzer und Communitys einen entscheidenden Faktor für
   die Atraktvität eines Systems ausmachen können, wird hier gegeben, wobei auch die
   konkrete technologische Umsetzung und die Konzepte beschrieben werden. Während
   sich der Begrif der „Empfehlungssysteme“ in einigen Beiträgen nur auf automatsche
   Verfahren der Empfehlung beschränkt, beziehen wir in dieser Arbeit alle Formen der
   Empfehlungen mit ein.
   Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgenden
   Verfahren oder eine Kombinaton von beiden genutzt:
   | Beim inhaltsbasierten Filtern (Engl. „Content Based Filtering“) beruhen die Empfeh-
      lungen auf den Eigenschafen der Elemente, die empfohlen werden. Beispielsweise
      wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerpro-
      fls ergeben hat, dass es ihn interessieren könnte (Klahold, 2009).
   | Beim kollaboratven Filtern (Engl. „Collaboratve Filtering“) werden Empfehlungen
      auf der Basis von Daten zu ähnlichen Benutzerproflen gegeben. Beispielsweise wer-
      den hier Bücher empfohlen, die andere Nutzer mit ähnlichem Benutzerprofl bereits
      gekauf, gelesen oder positv bewertet haben (Klahold, 2009).
   Ein weiteres wichtges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob per-
   sonalisierte Empfehlungen gegeben werden oder ob die Empfehlung für jeden Nutzer
   gleichermaßen gilt.
   Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer
   anderen Nutzern direkte (persönliche) Empfehlungen geben (s. Terveen & Hill, 2001;
   Brand-Haushofer, 2005).



                                                                                             9
1.2 Schwerpunkte, Forschungsfragen und Vorgehen
       Schwerpunkte unserer Ausführungen sind die unterschiedlichen Formen und Einsatz-
       möglichkeiten von Empfehlungssystemen im Web.
       Folgende, eher praktsche Fragen waren dabei forschungsleitend:
       | Welche Arten von Empfehlungssystemen im Web gibt es derzeit?
       | Wie und zu welchem Zweck werden sie eingesetzt?
       | Welche Erfahrungen wurden dabei bisher gemacht?
       Diese Publikaton verfolgt das Ziel, über unterschiedliche Branchen und Anwendungsbe-
       reiche hinweg, Realisierungsmöglichkeiten und Beispiele vorzustellen. Dabei wird be-
       trachtet, welchen Nutzen einzelne Benutzer eines Services oder einzelne Community-
       Mitglieder haben und wie ggf. die Nutzergruppe insgesamt davon proftert.
       Im Überblick beschäfigt sich die Studie also mit:
       | Motven für den Einsatz von Empfehlungssystemen,
       | unterschiedlichen Ansätze und technologischen Grundlagen,
       | Realisierungen für unterschiedliche Einsatzbereiche,
       | Hinweisen zur Entwicklung solcher Systeme sowie
       | Herausforderungen und zukünfigen Forschungsfragen.
       Ein gewisses technisches Grundverständnis voraussetzend, wendet sich diese Studie vor
       allem an Praktker, die sich durch die unterschiedlichen Nutzungsmöglichkeiten anregen
       lassen wollen, für ihre eigenen Webplatormen innovatve Empfehlungsservices zu ent-
       wickeln. Hierfür wurden Beispiele, Publikatonen und Experten einbezogen, um einen
       guten Einsteg und Überblick zum aktuellen Stand der Nutzung sowie anregende Einbli-
       cke ermöglichen zu können.
       Beim Entwurf des Projektes und der Forschungsschwerpunkte gab es keine deutschspra-
       chige umfangreichere Einführung in Empfehlungssysteme. Während der Recherchen er-
       schien jedoch ein neues Buch: Klahold (2009) führt in die unterschiedlichen Empfeh-
       lungssysteme, ihre Struktur und verwendete Technologien und Methoden systematsch
       für Studierende der Informatk ein. Diese Broschüre hat hingegen eher die unterschiedli-
       chen Einsatzgebiete und Erfahrungen sowie die Entwicklung von Empfehlungssystemen
       für Gestalter und Verantwortliche von Webplatormen im Fokus. Auf alle Fälle beein-
       fusste und inspirierte uns das Buch von Klahold (2009); häufg wird daher auf diese
       Quelle verwiesen.

     1.3 Hintergrund
       Diese Broschüre ist ein Ergebnis der „ComStudy“, die am Salzburg NewMediaLab (SNML)
       im Zeitraum von Oktober 2008 bis Januar 2010 durchgeführt wurde. Das SNML, das
       Kompetenzzentrum für Neue Medien in Österreich, arbeitet daran, digitale Inhalte cle-
       ver zu strukturieren, verknüpfen, personalisieren, für alle aufndbar zu machen und
       nachhaltg zu nutzen und betrachtet dabei die Community als einen wesentlichen Faktor
       vieler Projekte.
       Im Rahmen der ComStudy wurde bereits eine Studie zum erfolgreichen Community-
       Aufau durchgeführt, die anhand von Literaturanalysen, Best-Practce-Beispielen, Fall-
       analysen und Expertenbefragungen für unterschiedliche Szenarien konkrete Implemen-
       terungsempfehlungen gibt (Schafert & Wieden-Bischof, 2009). In einer weiteren Bro-
       schüre wurde die Entstehung und Nutzung von (Meta-) Informatonen in Communitys



10
beschrieben. Unterschiedliche Einsatzgebiete und Nutzungen, von der Entwicklung von
Services für die Communitys selbst bis zum unternehmensgetriebenen Webmonitoring
werden dabei beschrieben (Schafert u.a., 2009). Auf diesen Vorarbeiten beruht im Rah-
men des Projektes zudem eine Studie zu Feedback- und Reputatonssystemen (Schafert
u.a., 2010).
Auch dieser Band basiert darauf, da bei der Entwicklung von Empfehlungssystemen auf
(Meta-) Informatonen unterschiedlichster Art zurückgegrifen werden kann (s. letzte
Seite in diesem Band).




                                                                                        11
12
2 EMPFEHLUNGSSYSTEME: ANSÄTZE UND METHODEN
  In diesem Abschnit werden die unterschiedlichen Ansätze und Methoden von Empfeh-
  lungssystemen vorgestellt. Dazu werden zunächst Ziele und Zwecke ihres Einsatzes und
  ihre Quellen vorgestellt. Im Anschluss wir ein Einsteg in die unterschiedlichen Verfahren
  des inhaltsbasierten als auch kollaboratven Filtern und hybrider Ansätze geboten.
  Leider nutzen einige Forscher unterschiedliche Bezeichnungen für die gleichen Verfah-
  ren von Empfehlungssystemen, während andere identsche Bezeichnungen verwenden,
  aber ofensichtlich unterschiedliches verstehen (Schickel-Zuber, 2007, 21). Im Folgenden
  wurde Aufau und Bezeichnungen der Verfahren aus aktuelleren Veröfentlichungen ge-
  wählt und beschrieben (u.a. Schickel-Zuber, 2007; Klahold, 2009).

2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen
  Einleitend wurde festgestellt, dass Empfehlungssysteme die Aufgabe haben, Nutzern
  von Anwendungen Objekte vorzuschlagen, die für sie interessant sein können. Doch
  welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssys-
  tem enthält?
  Unmitelbare Zwecke, die Empfehlungssysteme erfüllen sollen sind, dass
  | Nutzer für sie interessante, neuartge und nützliche Empfehlungen für Experten, Pro-
     dukte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhal-
     ten, und/oder
  | dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung
     von Reisen etc. erleichtert, beschleunigt und verbessert werden.
  Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen verfolgen, können dabei
  sein:
  | mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen,
  | zufriedenere Nutzer zu erhalten,
  | sich durch besseren Service von Mitbewerbern zu unterscheiden sowie
  | höhere Umsätze und/oder Gewinne zu sichern.
  Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöhte Um-
  sätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden
  auch tatsächlich interessant sind. So wird das Hauptgeschäf bei Amazon oder iTunes
  Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten.
  Diese gilt es aber zu fnden, daher sind Empfehlungssysteme unabdingbar (vgl. Klahold,
  2009).
  Strategische Ziele, die damit verfolgt werden können sind zum Beispiel: die Nutzer an
  den eigenen Service zu binden, sie zu aktvieren und/oder ein Alleinstellungsmerkmal im
  Vergleich mit den Mitbewerbern zu erlangen.
  Gleichzeitg, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch
  Bewertungssysteme eingeführt werden können, ermöglichen Empfehlungssysteme auch
  leichteres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können
  Betreiber, beispielsweise in Handelsplatormen Auswirkungen der Empfehlungen von
  Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über
  gute Produktplatzierung und Werbung gewinnen.




                                                                                              13
2.2 Quellen für Empfehlungssysteme
            Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Informato-
            nen über Nutzer sowie den Empfehlungselementen zur Verfügung. Beispielsweise sind
            dies (s. Schafert u.a. 2009, 10):
            | das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten,
            | die Kommunikatons- und Netzwerkstruktur als Möglichkeit die sozialen Gegebenhei-
              ten zu erfassen und zu nutzen,
            | Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Web-
              seiten zu evaluieren und zu beurteilen,
            | Social Tagging als eine innovatve und populäre Variante von gemeinschaflicher Ver-
              schlagwortung von Dokumenten,
            | Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Metainfor-
              matonen analysiert und abgeleitet werden können,
            | Metadatenformate als klassische Form von Metainformatonen sowie schließlich
            | verknüpfe Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data).
            Bei Empfehlungssystemen wird darüberhinaus auch damit experimentert, beispielswei-
            se Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfehlungen zu verbes-
            sern (Nunes & Blanc, 2008).
            Die unterschiedlichen Quellen werden in explizite Empfehlungen, d.h. Empfehlungen
            durch Bewertungen von Nutzern, sowie verhaltensbasierte Empfehlungen durch sonst-
            ge Aktvitäten der Nutzer unterschieden. Nach Neumann (2009) sind mit der Nutzung
            dieser unterschiedlichen Quellen auch unterschiedliche Herausforderungen verbunden.


                          Nutzer                                         Designprobleme der Mechanismen


Nutzertyp                    Verhalten                    Explizite Empfehlungen        Verhaltensbasierte
                                                                                        Empfehlungen

unvoreingenommen passiv      passiver Konsum              Free-Rider-Efekt,              –
                                                          Netzwerkefekte

unvoreingenommen aktv        wahrheitsgemäßer Beitrag     Privatsphäre                  (Privatsphäre)

voreingenommen, aktv         voreingenommener Beitrag     Voreingenommenheit,           (Voreingenommenheit)
                                                          Feedback-Efekte
                                                          Glaubwürdigkeit

                                         Tabelle 1: Nutzertypen und Designprobleme von Empfehlungssystemen
                                                             mit expliziten vs. verhaltensbasierten Empfehlungen
                                                                           Quelle: Neumann, 2009, Tabelle 3.1, 28


            Prinzipiell sind bei beiden Verfahren v.a. Voreingenommenheit und Parteilichkeit bei
            Nutzern eine Herausforderung, insbesondere wenn bewusst und intensiv zugunsten
            oder gegen Produkte bewertet wird. Parteiische Nutzer können auch Feedback-Efekte
            hervorrufen, d.h. dass ein frühzeitges positves Feedback zu größeren Marktchancen
            von Produkten führt, ein frühes negatves Feedback jedoch die Chancen für spätere Ver-
            besserungen der Bewertungen und Absatzchancen stark einschränkt.
            Empfehlungen sind auch gewissermaßen ein öfentliches Gut, von dem jeder profteren
            kann. Dies gilt im besonderen Maße für Nutzer, die nur von den Bewertungen anderer




14
profteren, aber nicht selbst daran mitwirken („Free-Rider-Efekt“). Wünschenswert ist
           allerdings, dass alle Nutzer mitwirken und Netzwerkefekte entstehen können.

        2.3 Personalisierte und allgemeine Empfehlungen
           Als erstes Unterscheidungsmerkmal der unterschiedlichen Verfahren wird häufg ausge-
           wählt, ob das System personalisierte, d.h. auf einen Nutzer zugeschnite, Empfehlungen
           gibt. Insbesondere Bewertungsplatormen wie die Nachrichtensammlung Digg1 geben
           auf der Startseite keine personalisierten Empfehlungen ab, sondern aggregieren aus den
           Bewertungen der Digg-Nutzer Empfehlungen von Nachrichten, die für alle Besucher der
           Seite gelten. Registrierte Nutzer bekommen jedoch auch ihr Profl zugeschnitene Emp-
           fehlungen (s. Abbildung 1).
           Ebenso keine personalisierten Empfehlungen in diesem Sinne geben beispielsweise Sys-
           teme, die zu einzelnen Produkten oder Webseiten weiterführende oder ähnliche Pro-
           dukte und Webseiten anbieten, wenn diese Empfehlungen nicht aufgrund des Nutzer-
           profls gegeben werden, sondern bei jedem Nutzer gleichermaßen angezeigt werden.




                                               Abbildung 1: Allgemeine Nachrichtenempfehlungen und
                                                     die personalisierte Empfehlungsmaschine bei Digg
                                                                     Quelle: htp://digg.com (02/2010)


           Als registrierter Nutzer erhält man bei Digg jedoch personalisierte Empfehlungen für Ar-
           tkel: Vorgeschlagen werden Beiträge, die Nutzer mit einem ähnlichen Profl gut fnden.
           Personalisierte Empfehlungssysteme können auch die Nutzer-History berücksichtgen
           und (auch ohne Berücksichtgung anderer Nutzerprofle) Empfehlungen geben (Tanaka,
           Hori & Yamamoto 2008).
           Im Folgenden stellen wir die zwei grundsätzlich unterschiedliche Verfahren vor, die bei
           Empfehlungssystemen eingesetzt werden: das inhaltsbasierte sowie das kollaboratve
           Filtern.

        2.4 Inhaltsbasiertes Filtern
           Das inhaltsbasierte Filtern hängt stark von den Objekten ab, die empfohlen werden sol-
           len: Bücher, Videos, Fotos, Musikdateien und andere Produkte sind dabei unterschied-
           lich beschrieben und nutzen auch unterschiedliche Metadatenformate. Die Eigenschaf-
           ten der Objekte sind die Basis für die Empfehlungen. Was andere Nutzer machen, spielt
           also keine Rolle. Folgende Abbildung gibt einen Überblick über die Prozesse beim in-
           haltsbasierten Filtern, die wir im Folgenden genauer vorstellen.




1
    htp://digg.com, Stand 02/2010


                                                                                                        15
Abbildung 2: Überblick über das Vorgehen bei inhaltsbasierten Empfehlungen
                        Quelle: Nutzung von Abbildungen von Artkeln der folgenden Zeitschrifen:
                      Oberbadisches Volksblat, Ahlener Zeitung, Rheinische Zeitung, Kleine Zeitung



     Eigenschafsanalyse
     Die Datenbasis des Systems kann beim inhaltsbasierten Filtern grundsätzlich unter-
     schiedlich erlangt werden:
     | Die Elemente können mit Hilfe von Experten beschrieben werden. Insbesondere Ler-
        nempfehlungen in Lernumgebungen werden aufgrund von Angaben von Experten,
        i.d.R. der Lehrenden gegeben. Dazu werden beispielsweise im Lernmanagementsys-
        tem Angaben zum Aufau der Lerneinheiten gemacht, welches Modul beispielsweise
        welchem Modul folgt bzw. folgen sollte. Eine Reihe von weiteren Empfehlungssyste-
        men verwenden Metadaten von Objekten, ohne dass spezifsche weitere Auswertun-
        gen vorgenommen werden: So können Bücher von gleichen Autoren empfohlen wer-
        den oder Bücher, die in der gleichen Rubrik veröfentlicht wurden.
     | Davon unterscheiden sich Empfehlungssysteme, die zu empfehlende Objekte bzw.
        deren Nutzer erst weiteren Auswertungen und Analysen unterziehen, um entspre-
        chende Daten zu erhalten. Viele Empfehlungssysteme greifen nicht auf explizite Ele-
        mentbeschreibungen wie z. B. Metadaten zurück.
     Of sind Eigenschafen der Empfehlungselemente eben noch nicht bekannt oder be-
     schrieben, sondern müssen erst analysiert werden (in der Abbildung 2 mit „a“ gekenn-
     zeichnet).


16
Auch für andere Formate wie Videos, Audios und Bilder gibt es Verfahren der automat-
          schen Analyse. Erprobter und sehr häufg im Einsatz sind bei Empfehlungssystemen je-
          doch vor allem Eigenschafsanalysen von Texten. Auf diesen Bereich gehen wir daher im
          Folgenden besonders ein.

          Eigenschafsanalyse am Beispiel von Texten
          Besonders bei Texten müssen deren Besonderheiten erst vom Empfehlungssystem fest-
          gestellt werden. Die Verfahren zur Analyse von Eigenschafen von Texten heißt „Feature
          Selecton“ bzw. eben Eigenschafsanalyse (vgl. Klahold, 2009, 42). Dazu gibt es eine Rei-
          he von Verfahren, die diese Analyse ermöglichen. Bei Texten ist es wichtg, die Schlüssel-
          worte (bzw. Stchworte) zu erhalten, die zentrale Bedeutung für den Text haben (siehe
          Klahold, 2009, 42f). Dabei kommen Verfahren der Informaton Extracton (auf Deutsch
          „Informatonsgewinnung“), zum Einsatz, also semantsche wie statstsche Verfahren (s.
          Knoth, Schmidt & Smrž, 2008). Nicht zuletzt durch Empfehlungssysteme ist die Nachfra-
          ge und Zitatonshäufgkeit von einschlägigen Werken wie „Informaton to modern infor-
          maton retrieval“ von Salton und McGill (1986) oder „Informaton Retrieval von van Rijs-
          bergen (1979) immer noch hoch (s. Heymann, 2004).
          Im Folgenden zeigen wir ein typisches Verfahren am Beispiel von vier Ausschniten aus
          Liedtexten. Hier werden zunächst Wörter, die in der deutschen Sprache sehr häufg sind
          und keinen Mehrwert für die Diferenzierung von Texten haben, gestrichen und nicht
          weiter ausgewertet. In solchen „Stopplisten“ stehen typischerweise Worte wie „auch“,
          „als“, „an“, „keine“, „kann“, „sind“, „oder“ sowie „und“. In der folgenden Tabelle wird ge-
          zeigt, welche Wortlisten sich aus drei Beispielsätzen ergeben, wenn Stopplistenwörter
          gestrichen werden, Wiederholungen gelöscht sowie Wörter auf ihre Grundformen zu-
          rückgeführt werden.

         Originalsatz (Liedtexte)                                   Nach Streichung der Stoppwörter

Text A   „Wir tanzen Tango und möglichst lang. Es spielt sich eng   wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng
         bei dem Gedräng.“

Text B   „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir.    eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, eins, zwei,
         Eins, zwei, drei, vier, beide Hände reich ich dir.“        drei, vier, beide, Hände, reich, ich, dir

Text C   „Oh, Donna Clara, ich hab dich tanzen gesehn, und deine    oh, Donna, Clara, ich, tanzen, gesehn, deine, Schönheit,
         Schönheit hat mich toll gemacht.“                          mich, toll, gemacht

Text D   „Komm, tanz den Tango mit mir! Und folge mir im Tango-     komm, tanz, Tango, mir, folge, mir, Tangoschrit, hier, ich,
         schrit hier! Ich tanz den Tanz ganz lange mit dir.“        tanz, Tanz, ganz, lange, dir

                          Tabelle 2: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten.
                       Quelle: Textauszüge von Nina Hagen, Volksgut, Comedian Harmonists und Bodo Wartke


          Folgende Verfahren zur Textanalyse werden in der Praxis häufg eingesetzt:
          | Das Verfahren „Term Frequency – Inverse Document Frequency“ (kurz TF/IDF) ist ein
            statstsches Verfahren: Es zählt alle Wörter im Text. Wörter, die dabei in allen Texten
            (im gesamten Korpus) vorkommen, erhalten ein geringes Gewicht. Wörter, die nur in
            wenigen Texten vorkommen, erhalten ein größeres Gewicht und werden zur Be-
            schreibung eines Textes bedeutsamer eingeschätzt. Dabei werden in aller Regel auch
            Stemming- bzw. Lemmatsierungs-Verfahren eingesetzt, d.h. Worte werden auf ihre
            Stammformen gebracht, um beispielsweise unterschiedliche Beugungsformen kor-
            rekt zu zählen.




                                                                                                                                       17
| Der Ansatz der „Mutual Informaton“ berechnet die Wahrscheinlichkeit, dass zwei
         Worte gemeinsam in einem Text vorkommen. Durch den Vergleich der Wahrschein-
         lichkeit des gemeinsamen Aufretens mit der des unabhängigen Aufretens der Wort-
         paare wird ein Ähnlichkeitsmaß von Texten berechenbar.
     Diese Ansätze wurden vielfältg präzisiert und weiterentwickelt, beispielsweise sind das
     „Okapi Weightng Scheme“ und das Okapi-BM2-Verfahren Weiterentwicklungen des
     TF/IDF-Verfahrens (s. Cummins & O’Riordan, 2006). Ein weiteres patentertes Verfahren
     ist das Latent Semantc Indexing. Marco Kalz beschreibt es im Expertengespräch (s.
     S. 65).
     Bei solchen statstschen Verfahren werden v.a. Wörter gezählt und seltener semant-
     sche Bezüge ausgewertet. Verwandte Wörter bzw. die Wortbedeutungen zu berücksich-
     tgen wird v.a. durch Einbezug von Thesauri, Synonym-Lexika und Wörterbüchern mög-
     lich. Bei mehrdeutgen Wörtern wie „Bank“ können beispielsweise über die assoziierten
     Wörter weitere Zuordnungen vorgenommen werden. Trit das Wort „Bank“ beispiels-
     weise im Zusammenhang mit „Kredit“, „Überweisung“ auf, passt dieser Beitrag wohl
     eher zu einem Artkel mit Beiträgen zu Geldinsttuten als zu anderen Beiträgen zur Sitz-
     gelegenheit „Bank“ (siehe ausführlich bei Klahold, 2009, 48). Ein Verfahren, das ebenso
     Wortbedeutungen auswertet ist der Ansatz der „Named Entty Recogniton“: Hier wer-
     den sogenannte „Enttätstypen“ durch die Stellung im Satz identfziert. Beispielsweise
     können das Personen, Firmen oder Orte sein, die aufgrund der Stellung im Satz, der
     Häufgkeit oder auch durch Abgleich mit Listen als Personennamen, Firmennamen oder
     Ortsnamen identfziert werden.
     Für Empfehlungssysteme wurden eigene Heuristken dafür entwickelt, welche Wörter
     wichtg sind bzw. den Inhalt des analysierten Textes widerspiegeln. Für ein Empfehlungs-
     system von Webseiten, dem InfoFinder, wurde beispielsweise folgende Heuristk einge-
     setzt (Krulwosh & Burkey, 1997; Übersetzung in Klahold, 2009, 112):
     | Worte, die in einer Stoppwortliste, stehen sind grundsätzlich unwichtg,
     | komplet groß geschriebene Worte sind wichtg (Vermutung, es handelt sich um ein
       Akronym),
     | in Klammern oder Anführungszeichen stehende Worte nach einem komplet groß ge-
       schriebenen Wort sind wichtg (Vermutung, es handelt sich dabei um eine Defniton
       eines Akronyms),
     | anders formaterte Wortolgen von zwei bis drei Worten, die kein eigenständiger Satz
       sind, sind wichtg (Vermutung, es handelt sich um die erstmalige Verwendung eines
       wichtgen Wortes),
     | Worte in Aufzählungen, Überschrifen, Bildunterschrifen, Tabellenspalten und -zei-
       len sind wichtg,
     | ofmals wiederholte Wortolgen sind wichtg,
     | Substantve in direkter Folge sind wichtg (Vermutung, es handelt sich um einen
       Fachbegrif),
     | Worte, die Sonderzeichen (beispielsweise einen Bindestrich), Zifern oder Großbuch-
       staben enthalten, sind wichtg.




18
Darstellung und Speicherung der Eigenschafen
            Eine einfache Darstellung von Eigenschafen eines Textes ist die einfache unstrukturierte
            Sammlung der Schlüsselworte („Bag of Words“, Klahold, 2009, 58). In der Regel werden
            die Eigenschafen in Form von Vektoren dargestellt (s. Klahold, 2009, 56f; Abbildung 2
            mit „b“ gekennzeichnet). Texte werden dabei i.d.R. mit Vektoren repräsentert, die so
            viele Komponenten haben, wie der Korpus Worte besitzt. Anhand der Ähnlichkeit von
            Vektoren wird auf die Ähnlichkeit der analysierten Texte geschlossen (s. Abschnit 2.6,
            S. 25)
            Am obigen Beispiel der Liedtexte dargestellt (s. Tabelle 2, S. 17), können Vektoren bei-
            spielsweise folgendermaßen aussehen:

         Schlüsselworte                 Vektoraufau: wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng,         Zahl der
                                        eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, beide, Hände, reich, ich,   Schlüssel-
                                        dir, oh, Donna, Clara, gesehn, deine, Schönheit, mich, toll, gemacht, folge,     worte ohne
                                        Tangoschrit, hier, Tanz, ganz                                                    Wiederho-
                                                                                                                         lungen

Text A   wir, tanzen, Tango, mög-       VRA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)         8
         lichst, lange, spielt, eng,    VBA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
         Gedräng

Text B   eins, zwei, drei, vier, Brü-   VRB=(0,0,0,0,0,0,0,0,2,2,2,2,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)        14
         derchen, komm, tanz, mir, VBB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
         eins, zwei, drei, vier, beide,
         Hände, reich, ich, dir

Text C   oh, Donna, Clara, ich, tan-    VRC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)        11
         zen, gesehn, deine, Schön-     VBC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)
         heit, mich, toll, gemacht

Text D   komm, tanz, Tango, mir,        VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,2,2,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)        12
         folge, mir, Tangoschrit,       VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)
         hier, ich, tanz, Tanz, ganz,
         lange, dir

                   Tabelle 3: Darstellung der Schlüsselworte in Vektoren mit reellen und binären Komponenten


            In der Darstellung wird die Zahl der entsprechenden Worte im Vektor dargestellt. Mög-
            lich ist auch eine binäre Darstellung, bei der „1“ für „vorhanden“ und „0“ für „nicht vor-
            handen“ steht. Vektoren mit mehr als drei Dimensionen lassen sich dabei kaum bildlich
            vorstellen. In der Darstellung wird die Zahl der entsprechenden Worte im Vektor darge-
            stellt. Schon beim Betrachten der Vektoren kann man sich vorstellen, welche Vektoren
            ähnlich sind.

            Vergleich der Empfehlungselemente
            Sind die Eigenschafen von Empfehlungselementen analysiert bzw. bekannt, wird beim
            inhaltsbasierten Filtern ein Vergleich zwischen den Empfehlungselementen vorgenom-
            men. Dazu stehen wiederum unterschiedliche Verfahren bzw. Algorithmen zur Verfü-
            gung (in der Abbildung c). Typischerweise wird die Ähnlichkeit von Elementen als nütz-
            lich empfunden, um darauf aufauend Empfehlungen auszusprechen. Wir stellen ausge-
            wählte Verfahren in Abschnit 2.6 vor (s. S. 25).




                                                                                                                                      19
Bei der Entscheidung für ein oder mehrere Verfahren bzw. einen Algorithmus ist es
     wichtg, dass die Ergebnisse in einer angemessenen Zeit zur Verfügung stehen: „Um die
     Laufzeitkomplexität zu reduzieren muss die Eigenschafsanalyse ein möglichst gutes Ver-
     hältnis zwischen der Menge der Eigenschafen und der dadurch gegebenen diskriminie-
     renden Wirkung bezüglich der Empfehlungselemente erzielen“ (Klahold, 2009, 42).

     Fallbezogenes und eigenschafsbezogenes Filtern
     Es können zwei Arten des inhaltsbasierten Filterns unterschieden werden.
     Zum einen werden beim eigenschafsbezogenen Filtern (Engl. „atributon based“) Emp-
     fehlungen aufgrund der Übereinstmmungen des Profls der Nutzer (z. B. seinen Qualif-
     katonen) mit den Elementen (z. B. Stellenanzeigen) gegeben (siehe Abbildung 3,
     rechts).
     Zum anderen werden beim fallbezogenen Verfahren (Engl. „case based“) personalisierte
     Empfehlungen auf Basis der Ähnlichkeiten von Elementen gegeben (siehe Abbildung 3,
     links): Hat jemand z. B. einen Text zu Delphinen hoch bewertet, so wird er weitere Texte
     zu diesem Thema vorgeschlagen bekommen.




                                 Abbildung 3: Inhaltsbasiertes Filtern: eigenschafsbezogenes (links)
                                                                    und fallbezogenes Filtern (rechts)
                       Quelle: Darstellung in Anlehnung an Kim, 2006, abgebildet in Drachsler, 2009




20
Beispiele für Empfehlungssysteme mit inhaltsbasiertem Filtern
              Ausgewählte Beispiele für Empfehlungssysteme, die auf inhaltsbasiertem Filtern beru-
              hen, werden in Klahold (2009, 102f) vorgestellt und hier zusammengefasst.



Name            Empfeh-       Kurzbeschreibung        Eigenschafsanalyse      Proflbildung         Distanzmaß        Literatur
                lungsele-
                ment

Informaton      E-Mail        E-Mails erhalten        Manuelle Ergänzung      Manuelle Erstel-     Regelbasiert      Malone, Grant,
Lense                         Metadaten (Ort,         der Metadaten           lung des Interes-    (einfache Über-   Turbak (1986)
                              Produkt etc.)                                   sensprofls durch     einstmmung)
                                                                              Nutzer

Infoscope       Usenet-       Vorhandene Filterre-    Heuristk, manuelle      Manuelle Pfege       regelbasiert      Fischer & Ste-
                Nachrichten   geln für eine „virtu-   Metadaten, Text-                                               vens (1991)
                              elle“ Newsgroup         struktur, NLP, Basis-
                              werden bewertet         korpus-Statstk, TF-
                                                      IDF-Derivat

Letzia          Webseiten     Webseiten (Subsei-      TF-IDF-Derivat          Manuelle Pfege       Cosinus-Ähn-      Liebermann
                              ten oder Links) wer-                            (Schlüsselworte)     lichkeitsmaß      (1995)
                              den empfohlen

WebWatcher      Webseiten     Hyperlinks auf Web- TF-IDF-Derivat              Manuelle Pfege      Mutual Infor-      Armstrong, Frei-
                              seiten und neue                                 (Interessensspezif- maton              tag, Joachims &
                              Webseiten werden                                katon)                                 Mitchell (1995)
                              empfohlen                                                                              u.a.

Syskill & We-   Webseiten     Webseiten werden        TF-IDF-Derivat          Auf Basis von Be-    Naiver-Bayes-     Pazanni, mUra-
bert                          empfohlen                                       wertungen des        Klassifkator      matsu & Billsus
                                                                              Nutzers von Web-                       (1996)
                                                                              seiten (Schlüssel-
                                                                              worte)

InfoFinder      Webseiten     Webseiten werden        Heuristk                Auf Basis von Be-    ID3-Algorithmus Krulwosh & Bur-
                              empfohlen                                       wertungen des                        key (1997)
                                                                              Nutzers (Smiley
                                                                              anklicken)

LIBRA           Bücher        Bücherempfehlun-        Manuelle Metada-        Auf Basis von        Naiver-Bayes-     Mooney & Roy
                              gen                     ten                     Buchbewertungen      Klassifkator      (2000)
                                                                              des Nutzers

            Tabelle 4: Übersicht über ausgewählte Empfehlungssysteme, die inhaltsbasiertes Filtern verwenden.
                                                                                 Quelle: Klahold, 2009, 102f


             Die hier genannten Verfahren zur Distanzermitlung werden in Abschnit 2.6 (S.25) be-
             schrieben.




                                                                                                                                        21
2.5 Kollaboratves Filtern
       Beim kollaboratven Filtern werden Empfehlungen aufgrund anderer ähnlicher Benutzer-
       profle gegeben (Klahold, 2009, 62f). Folgende Abbildung gibt einen Überblick über das
       Verfahren, dass wir im Folgenden detaillierter beschreiben.




                                   Abbildung 4: Überblick des Vorgehens beim kollaboratven Filtern



       Implizite und explizite Bewertungen
       Grundlage für das kollaboratve Filtern sind die Bewertungen von Nutzern (siehe Abbil-
       dung 4 mit „a“ gekennzeichnet). Diese können implizit durch Auswertung des Nutzerver-
       haltens generiert werden, zum Beispiel kann vermerkt werden, welche Elemente an-
       geklickt und/oder länger betrachtet wurden oder was gekauf wurde. So wird bei WAIR,
       einem Empfehlungssystem für Webseiten, die Bewertung einer Webseiten nicht explizit
       durch den Nutzer erbeten: Bewertungen von Webseiten werden hier aus dem Nutzer-
       verhalten abgeleitet beispielsweise der Lesedauer, Setzen von Lesezeichen, Scrollen, Be-
       nutzen von Hyperlinks (in der Webseite; s. Seo & Zang, 2000; Klahold, 2009, 133f). Häu-
       fg werden jedoch auch explizite Bewertungen der Nutzer erbeten, beispielsweise auf ei-
       ner Skala mit fünf Sternen.

       Unterschiedliche Verfahren kollaboratven Filterns
       Mit Hilfe dieser Daten wird nun berechnet, wie relevant ein Empfehlungselement für
       einen Nutzer ist. Dazu gibt es beim kollaboratven Filtern wiederum mindestens vier An-
       sätze zu unterscheiden (in der Abbildung 4 mit „b“ gekennzeichnet, Klahold, 2009, 62f;
       Kim, 2006; Drachsler, 2009 u.a.).




22
Abbildung 5: Nutzer- und elementbasiertes kollaboratves Filtern
                  Quelle: Darstellung in Anlehnung an Kim, 2006; abgebildet in Drachsler, 2009


(i) Beim nutzerbezogenen Algorithmus wird festgestellt, welche Nutzer besonders ähn-
lich sind und deren Bewertungen eines Empfehlungselement als Relevanzmaß festge-
legt: Was ähnliche Nutzer als gut befnden, erhält eine hohe Relevanz und wird dem
Nutzer empfohlen (in der Abbildung 5 links).
(ii) Beim elementbezogenen Algorithmus werden eigene, als gut bewertete Elemente ge-
nommen und dann wird paarweise nach Elementen gesucht, die ebenso gut bewertet
werden. Die Relevanz berechnet sich beispielsweise in Form eines „gewichteten Durch-
schnits der Bewertungen des Benutzers für die (..) ähnlichsten Empfehlungselemente“
(Klahold, 2009, 65, in der Abbildung 5 rechts).




             Abbildung 6: Modell- bzw. speicherbasiertes Verfahren beim kollaboratven Filtern


(iii) Beim modell- bzw. speicherbasierten Verfahren werden alle Benutzerdaten und das
Benutzerverhalten in den Filterprozess eingebunden. Dabei kommen multvariate Ver-
fahren zum Einsatz, die am Ende von Abschnit 2.6 (S. 25) beschrieben werden, bei-
spielsweise K-Means-Clustering.
(iv) Wenn die Zuordnung nicht aufgrund solcher Verfahren, sondern auf Basis einfacher
Angaben wie beispielsweise Alter und Geschlecht erfolgt, werden darauf beruhende
Empfehlungen für Elemente, die Gleichaltrige und Gleichgeschlechtliche als stereotypes
bzw. demographisches kollaboratves Filtern bezeichnet (siehe z. B. Drachsler, 2009, 57).



                                                                                                 23
Beispiele von Empfehlungssystemen für kollaboratves Filtern
              Ausgewählte Beispiele für Empfehlungssysteme, die auf kollaboratven Filtern beruhen,
              werden in Klahold (2009) vorgestellt und hier zusammengefasst.



Name             Empfeh-       Kurzbeschreibung     Eigenschafsanalyse     Proflbildung        Distanzmaß        Literatur
                 lungsele-
                 ment

Tapestry         E-Mails       Anzeige von E-Mails, Relevanzbewertung      Manuelle Pfege      regelbasiert      Goldberg u.a.
                               die von anderen      durch Nutzer           (muss Nutzer aus-                     (1992)
                               Nutzern als relevant                        wählen, dessen
                               eingestuf werden                            Einschätzungen
                                                                           man nutzen will)

Ringo            Musik         Vorschläge für Inter- Bewertungen durch     Bewertung von       Regelbasiert      Shardanand &
                               preten und Alben      Nutzer                Musikstücken        (benutzerbezo-    Maes (1995)
                                                                                               gener Korrelat-
                                                                                               onskoefzient)

Group Lense      Usenet-       In Newsgroup-Rea- Bewertungen auf ei-       Bewertung von       Pearson Korre-    Resnick u.a.
                 Nachrichten   dern werden Nach- ner Skala von 1-5         Usenet-Nachrich-    latonskoefzi-     (1994)
                               richten gekennzeich-                        ten                 ent
                               net

Siteseer         Bookmark-     Browser-Bookmark-    Manuelle Metada-       Bookmarks und       Nearest-Neig-   Rucker & Polanco
                 Empfehlun-    vergleich            ten und Bookmarks      ihre Gruppierun-    bours-Verfahren (1997)
                 gen                                                       gen

Jester (Eigen-   Witze         Witzempfehlungen     Bewertung auf          Initale Bewertung Nearest-Neig-   Goldberg u.a.
taste)                                              200er-Skala            ausgewählter Wit- bours-Verfahren (2000)
                                                                           ze auf 200er-Skala,
                                                                           Zuordnung in Be-
                                                                           nutzergruppen
                                                                           (Clusteranalyse, 40
                                                                           Gruppen)

Amazon           Bücher        Bücherempfehlun-     Kaufverhalten (ele-    Weitere Empfeh-     Kosinus-Ähn-      Linden, Smith &
                               gen „Käufer dieses   mentbasiertes kolla-   lungen zu aktuell   lichkeitsmaß      York (2003)
                               Buches kaufen        boratves Filtern)      aufgerufenen Bü-    zwischen Buch-
                               auch...“                                    chern               vektoren

SurfLen          Webseiten     Empfehlungen im      Webseitenaufrufe       Weitere Empfeh-   Heuristk            Fu, Budzik &
                               Browser-Plugin       (elementbasiertes      lungen zu aktuell                     Hammond (2000)
                                                    kollaboratves Fil-     aufgerufenen Web-
                                                    tern)                  seiten

              Tabelle 5: Übersicht über ausgewählte Empfehlungssysteme die kollaboratves Filtern verwenden.
                                                                                  Quelle: Klahold, 2009, 87f


            In dieser Übersicht werden, wie auch schon beim inhaltsbasierten Filtern, Verfahren der
            Ähnlichkeitsfeststellung genannt, auf die wir im Folgenden eingehen werden.




24
2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen
  Beim inhaltsbasierten wie beim kollaboratven Filtern wird in aller Regel versucht, ähnli-
  che Nutzer bzw. ähnliche Elemente zu identfzieren: Es werden entweder ähnliche Nut-
  zerprofle oder auch ähnliche Elemente gesucht, um daraus Empfehlungen abzuleiten.
  Dazu kommen beim inhaltsbasierten und kollaboratven Filtern die gleichen Methoden
  zum Einsatz. Einige davon beschreiben wir im Folgenden kurz: Zum einen kommen dabei
  Verfahren, die Distanzen zwischen bzw. Ähnlichkeiten von Vektoren berechnen zum Ein-
  satz, denn wie oben dargestellt sind Vektoren die übliche Darstellung von Eigen-
  schafsproflen. Zum anderen werden Verfahren eingesetzt, die versuchen, Empfeh-
  lungselemente oder auch Nutzergruppen zuzuordnen.

  Distanzen und Ähnlichkeitsmaße von Vektoren
  Wenn es darum geht, „ähnliche“ Elemente zu empfehlen, müssen Aussagen über die
  Ähnlichkeiten von (allen) Elementen eines Korpus von möglichen Empfehlungselemen-
  ten vorliegen. Es gibt eine Vielzahl von Möglichkeiten, Aussagen über Ähnlichkeiten von
  Vektoren zu generieren.
  Bei den Verfahren werden in aller Regel zwei Vektoren miteinander verglichen.
  | Ein einfaches Verfahren beruht darauf zu zählen, wie of an der gleichen Stelle eines
     Vektors eine „1“ vorkommt, d.h. in unserem Beispiel, zu zählen, wieviele gemeinsa-
     me Worte zwei Texte aufweisen. Schnell wird allerdings klar, dass so längere Texte
     mit diesem Verfahren deutlich häufger „Ähnlichkeiten“ aufweisen als kürzere. Hier
     sind Korrekturen vorzunehmen. Folgende beiden Koefzienten wurden daher u.a.
     entwickelt.
  | Der Overlap-Koefzient berechnet sich aus dem Quotenten der gemeinsamen Wort-
     menge und der kleineren der beiden Wortmengen und kann als „Maß für die wech-
     selseitge Inklusion“ interpretert werden (Klahold, 2009, 73). Für den Vergleich von
     Vektor B und Vektor D des Beispiels berechnet er sich folgendermaßen: 5/12=0,42; 5
     ist dabei die Zahl der gemeinsamen Worte, 12 die kleinere Wortmenge beider Vekto-
     ren.
  | Der Dice-Koefzient berechnet sich dem Quotenten der doppelten Anzahl der ge-
     meinsamen Worte und der Summe der Worte beider Wortmengen. Die Beziehung
     wird auch hier aus dem Grad des gemeinsamen Vorkommens von Worten abgeleitet.
     Im Beispiel berechnet sich der Koefzient für die Vektoren B und D folgendermaßen:
     2*5/(14+12)=0,38; 5 ist dabei die Zahl der gemeinsamen Worte, 14 die Zahl der Wor-
     te von Vektor B, 12 die Zahl der Worte von Vektor D.
  Bei beiden Koefzienten kennzeichnen also höhere Werte eine größere Ähnlichkeit der
  Vektoren. Exemplarisch zeigen wir die Ergebnisse dieser Berechnungen an unserem Bei-
  spiel des Vergleichs von Liedertexten (s. Tabelle 2, S. 17 Und Tabelle 3, S. 19).




                                                                                              25
Ver-   Vektoren                                                                       gemein-   Overlap- Dice-Koef- Pearson Kor-
gleich                                                                                same      Koefzient zient     relatonsko-
                                                                                      Wort-                         efzient
                                                                                      menge

A,B    VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0           0,00      0,00       -0,43
       VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)

B,C    VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 1           0,09      0,08       -0,41
       VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)

C,D    VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 1           0,09      0,09       -0,34
       VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)

A,C    VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0           0,00      0,00       -0,21
       VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)

B,D    VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 5           0,42      0,38       0,04
       VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)

                                                     Tabelle 6: Ausgewählte Koefzienten zum Vergleich von Vektoren


           In unserem Beispiel zeigt sich durch die Berechnung dieser Koefzienten (s. Tabelle 6),
           dass die Zeilen „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. Eins, zwei, drei,
           vier, beide Hände reich ich dir“ sowie „Komm, tanz den Tango mit mir! Und folge mir im
           Tangoschrit hier! Ich tanz den Tanz ganz lange mit dir“ die größte Ähnlichkeit im Bezug
           auf die ihre (auf simple Weise extrahierten) Schlüsselwörter haben. Das Beispiel macht
           also auch deutlich, dass das Verfahren der Text-Extrahierung nicht immer brauchbare Er-
           gebnisse für nützliche Empfehlungen ergeben. Es erscheint wenig wahrscheinlich, dass
           jemand der ein Kinderlied mag, die Empfehlung eines Schlagers als sehr nützlich ein-
           schätzt.
           Schließlich gibt es weitere Verfahren der Ähnlichkeitsberechnungen, die das Streuungs-
           verhalten der Vektoren vergleichen (Klahold, 2009, 71): Der Pearson-Korrelatonskoef-
           zient vergleicht so die jeweiligen Abweichungen von den mitleren Werten für jede Ei-
           genschaf und kann Werte von -1 bis +1 ergeben. Eine negatve Korrelaton (-1) würde in
           unserem Beispiel bedeuten, dass die beiden zu vergleichenden Vektoren quasi spiegel-
           bildlich aufgebaut sind, z. B. V1=(0,0,1,1) und V2=(1,1,0,0). Gleiche bzw. ähnliche Vekto-
           ren würden hoch korrelieren (bis max. +1).
           Distanzen sind „der klassische Weg, die Dimension der 'Ähnlichkeit' mathematsch bere-
           chenbar zu machen“ (Klahold, 2009, 68). Im Folgenden werden zwei Beispiele für Di-
           stanzberechnungen vorgestellt:
           | Der Euklidische Abstand ist „die Wurzel der Summe der quadrierten Diferenzen über
              alle Koordinaten“ (Rahnenführer, 2009, 8). Im zwei- bzw. dreidimensionalen Raum ist
              der Euklidische Abstand der Abstand zwischen zwei Punkten im Koordinatensystem.
           | Der „Manhatan Abstand“ oder auch „City-Block-Abstand“ ist die „Summe der abso-
              luten (unquadrierten) Diferenzen über alle Koordinaten“ (Rahnenführer, 2008, 9). Im
              zweidimensionalen Raum ist der Manhaten-Abstand der Weg, den man gehen muss,
              wenn man nicht zu einem anderen Punkt geht, sondern sich nur in Richtung der Di-
              mensionen bewegen kann. In der Darstellung erinnern diese Abstände an die recht-
              winkligen Straßenpläne des Zentrums von New York.
           Ein weiteres Maß, das häufg eingesetzt wird, ist das Cosinus-Ähnlichkeitsmaß. Es be-
           rechnet den Unterschied zwischen den Winkeln der Vektoren durch deren Cosinus. Zwar



26
lässt sich dieses Vorgehen insbesondere bei den vieldimensionalen Vektoren unserer
Beispiele bildlich kaum vorstellen, es handelt sich dabei allerdings um ein Standardver-
fahren des Vektorenvergleichs. Je ähnlicher sich Vektoren sind, desto kleiner ist der Win-
kel zwischen ihnen (s. Klahold, 2009, 72).
Bei der Wahl eines Verfahrens sind neben der Laufzeitkomplexität auch weitere grund-
sätzliche Überlegungen wichtg. Beispielsweise ist zu überlegen, ob grobe Unterschiede
bei den Abweichungswerten (Streuungsmaß) der einzelnen Eigenschafen durch eine
Normalisierung ausgeglichen werden sollten. Umgekehrt könnte auch überlegt werden,
ob es Eigenschafen gibt, die wichtger bzw. unwichtger bei der Berechnung der Ähn-
lichkeit sind und dementsprechend Gewichtungen vorgenommen werden sollten. Bei-
spielsweise würde ein gleichwertger Einbezug aller Eigenschafen von Kleidungsstücken
auf einer Handelsplatorm kaum nützliche Empfehlungen für Käufer ergeben: Hohe Zu-
sammenhänge bzw. Ähnlichkeitsmaße würden sich typischerweise für die gleichen Pro-
dukte in unterschiedlichen Konfektonsgrößen ergeben. Nützliche Empfehlungen sind je-
doch eher passende oder ergänzende Kleidungsstücke in der gleichen Konfektonsgröße,
beispielsweise das Hemd zur Jeans in der gleichen Konfektonsgröße (siehe auch Ab-
schnit 2.7, S. 28).

Klassifkatonsverfahren
Während die bisher vorgestellten Verfahren versuchen, jedes Element in einem System
miteinander zu vergleichen, versuchen die folgenden Verfahren, Elemente zu gruppie-
ren. Empfohlen werden dann Elemente aus einer Gruppe. In der Regel werden die Grup-
pen mit Trainingsdaten bzw. der aktuellen Version des Korpus unter Einbezug von Exper-
tenwissen gebildet; weitere Elemente werden dann den Gruppen zugeordnet. Das Spek-
trum an multvariaten Verfahren stellt zahlreiche Möglichkeiten und Ansätze zur Verfü-
gung. Im Folgenden möchten wir nur kurz einige Ansätze skizzieren (s. Klahold, 2009,
77f):
| Das Minimum-Descripton-Length-Verfahren verfolgt den Ansatz, dass ein Empfeh-
  lungselement immer derjenigen Klasse zugeordnet wird, bei deren erweiterter binär-
  codierten Darstellung am wenigsten Speicherplatz benötgt wird. Es basiert also auf
  der Annahme, dass das kompakteste Modell optmal ist.
| Der Naive-Bayes-Klassifkator berechnet die bedingte Wahrscheinlichkeit, dass ein
  Empfehlungselement einer Klasse zugehörig ist. Es wird dabei von der (naiven) An-
  nahme ausgegangen, dass alle Atribute unabhängig voneinander aufreten.
| Beim ID3-Verfahren wird mit Trainingsdaten ein Entscheidungsbaum aufgebaut. Dazu
  durchläuf ein Algorithmus die Daten, der jeweils diejenigen Eigenschafen (Vektor-
  positonen) auswählt, die den Korpus am deutlichsten teilen. Das kann bei Personen
  beispielsweise das Rauchverhalten sein (Raucher bzw. Nichtraucher). Alle Elemente
  werden dann in diesem Baum zugeordnet.
| K-Means-Clustering ist das klassische Clustering-Verfahren. Besonderheit beim Clus-
  tering ist, dass die Gruppierungen erst im Verfahren entstehen und nicht schon vor-
  her bekannt sind. Es werden willkürlich im Vektorenraum Punkte ausgewählt und es
  wird geschaut, ob diese brauchbare „Zentren“ für Ansammlungen von Elementen (im
  mehrdimensionalen Vektorraum) sind. Dann wird solange iteratv verbessert, bis pas-
  sende „Cluster“ entdeckt und ausgewählt sind.




                                                                                             27
Soziale Netzwerkanalyse als alternatver Ansatz für die Ähnlichkeitssuche beim kolla-
       boratven Filtern
       Neben den oben beschriebenen „klassischen“ Verfahren der Ähnlichkeitsfeststellung
       gibt es Versuche, auch die Soziale Netzwerkanalyse als eigenständiges Verfahren für
       Empfehlungssysteme fruchtbar zu machen. Typischerweise spannen sich Kontakte und
       Kommunikaton wie ein Netz auf: Man kommuniziert mit jemandem, der wiederum mit
       anderen kommuniziert. Aus den Sozialwissenschafen gibt es mit der sozialen Netzwerk-
       analyse ein Verfahren, das die Vernetzung berechnen und darstellen lässt. Es kann also
       auch Nähe berechnet werden. Nun steckt hinter der Verwendung der sozialen Netz-
       werkanalyse in Empfehlungssystemen die Absicht, ein alternatves Instrument zur Be-
       rechnung von „Nähe“ zu erproben. Es gibt dazu erste Untersuchungen, die dermaßen
       generierte Empfehlungen mit herkömmlich generierten Empfehlungen vergleichen und
       mit beiden Verfahren ähnliche Ergebnisse erzielen (Kamper, Meyer & Reichart, 2008).

     2.7 Ähnlichkeit und weitere Kriterien
       Häufg wird das Kriterium der Ähnlichkeit als Grundlage für Empfehlungen gewählt. So
       werden beispielsweise in Online-Shops Bücher mit ähnlichen Inhalten angeboten, weil
       man davon ausgeht, dass diese für den potenziellen Käufer interessant sind. Es wird da-
       von ausgegangen, dass Nutzer mit ähnlichem Profl auch ähnliche Interessen und Ge-
       schmack haben, so dass darauf aufauend nützliche Empfehlungen entstehen können.
       Allerdings ist das Kriterium der Ähnlichkeit nicht immer hilfreich. So kann es sein, dass
       bei der Suche nach einem portugiesischen Restaurant auch andere Restaurants empfoh-
       len werden, die ähnlich sind: Wenn diese jedoch in einem weit enternten Ort liegen,
       am gesuchten Tag geschlossen haben usw., ist die Ähnlichkeit kein nützliches Kriterium.
       Was also „nützlich“ erscheint, muss nicht zwangsläufg „ähnlich“ zu einem bestmmten
       Element sein oder auf Ähnlichkeiten mit anderen Benutzern beruhen. Weitere Kriterien
       können sein: Räumliche Nähe, Aktualität, Bewertungen, Komplementarität oder auch
       Vollständigkeit (siehe auch Abschnit 4.6, S. 71f).

     2.8 Nachteile und Herausforderungen der Ansätze
       Die beiden vorgestellten Ansätze haben Vorteile, auf die im wesentlichen bereits einge-
       gangen wurde. Im folgenden werden kurz Einschränkungen und Herausforderungen der
       Verfahren beschrieben.

       Einschränkungen und Herausforderungen inhaltsbasierten Filterns
       Beim (reinen) inhaltsbasierten Filtern liegen folgende Einschränkungen und Herausfor-
       derungen für den Einsatz vor:
       | Es müssen bereits zahlreiche Daten über die zu empfehlenden Elemente vorliegen (z.
         B. in Form von Metadaten), durch Experten erstellt werden oder automatsch gene-
         riert werden. Während letzteres bei Texten, wie dargestellt, noch vergleichsweise
         einfach ist, ist es für textarme Materialien wie Videos, Musik und Fotos deutlich
         schwerer und stark eingeschränkt.
       | Das inhaltsbasierte Filtern vertraut nur auf die Inhalte der Objekte selbst und lässt
         Empfehlungen oder Erfahrungen von anderen (ähnlichen) Nutzern ausser Acht.




28
| Die Gewichtung der Eigenschafen von Empfehlungselementen, die bevorzugt bei
   Empfehlungen zum Tragen kommen sollen, ist sorgfältg vorzunehmen. So ist es beim
   Einkaufen im Online-Modeshop eher sinnvoll, ergänzende und passende Kleidung in
   der gleichen Konfektonsgröße empfohlen zu bekommen.
Ein wesentlicher Vorteil der Nutzung vorhandener Daten ist beim inhaltsbasierten Fil-
tern, dass solche Systeme von Anfang an „laufen“ und sinnvolle Empfehlungen geben
können.

Herausforderungen kollaboratven Filterns
Beim inhaltsbasierten Filtern werden folgende Probleme gesehen (s. Klahold, 2009, 66f;
sofern keine andere Quelle genannt):
| Es gibt ein sogenanntes „Kaltstart-Problem“: Wenn eine gewisse kritsche Masse an
   Daten nicht vorhanden ist, können keine (sinnvollen) Empfehlungen gegeben wer-
   den. Voraussetzung eines solchen Systems ist also, dass es bereits eine aktve Com-
   munity und Nutzer bzw. generierte Daten gibt. Daher gibt es Ansätze, wie solche feh-
   lenden Daten, beispielsweise für neue Elemente (Neuerscheinungen) vorhergesagt
   werden können (s. Givon & Lavrenko, 2009).
| Diese Abhängigkeit von den Aktvitäten der Nutzer ergibt auch die Herausforderung
   der „Spärlichkeit“: Benutzerbasierte Metadaten, die von den Benutzern selbst aktv
   vergeben wurden (Bewertung, Präferenzen, Empfehlungen), sind of nur spärlich vor-
   handen.
| Das Problem der „grauen Schafe“ liegt vor, „wenn ein Benutzer bezüglich seiner Be-
   wertungen zwar Profl-Überdeckungen mit anderen Benutzern hat, diese aber in Sa-
   chen Bewertung so stark variieren, dass keine 'verwandten' Benutzer selektert wer-
   den können“ (Klahold, 2009, 150)
Weitere Herausforderungen beziehen sich weniger auf die Datenlücken als auf die Be-
sonderheiten kollaboratver Empfehlungen:
| Der „Lemming-Efekt“ bezieht sich auf das Phänomen, dass Empfehlungen zu Selbst-
   läufern werden. Empfohlene Elemente werden häufg betrachtet oder gekauf. Da-
   durch wird die Relevanz „künstlich“ erhöht. Potenzielle Bestseller bei Amazon, bei-
   spielsweise von populären Krimiautoren, tauchen auf einmal in vielen Einkaufslisten
   auf; werden folglich in vielen Buchbeschreibungen als Kaufempfehlung gelistet, ob-
   wohl sachlich kein Zusammenhang besteht und sie bekommen dadurch eine erhöhte
   Aufmerksamkeit. Sprichwörtlich „wie die Lemminge“ kaufen Amazonkunden dann
   auf einmal ein Buch, nach dem sie ursprünglich gar nicht gesucht haben.
| Wenn sich ein System nur auf die Nutzergemeinschaf „verlässt“ kann dies auch dazu
   führen, dass andere relevante, bzw. neue Empfehlungselemente nur schwer aufge-
   nommen werden, da alle mit den bereits vorhandenen Empfehlungen „eingedeckt
   sind“. Hier läuf das System bzw. ihre Nutzer in die Gefahr eines Tunnelblicks (Kla-
   hold, 2009, 118). Um solche Efekte vorzubeugen, empfehlt es sich zufällige „Emp-
   fehlungen“ zu geben.
Aus Nutzersicht können sich weitere Schwächen ergeben. So kann es sein, dass bei-
spielsweise Nutzerprofle relatv früh (bei der Registrierung) festgelegt werden und Ver-
änderungen im Profl nicht unbedingt wahrgenommen werden müssen.




                                                                                          29
2.9 Hybride Lösungen
       Eine Lösung, mit den Vor- und Nachteilen der beiden Ansätze des kollaboratven sowie
       des inhaltsbasierten Filterns umzugehen, ist die Kombinaton beider Verfahren. Tatsäch-
       lich wird dies inzwischen auch in vielen, wenn nicht sogar den meisten Empfehlungssys-
       temen im Web in dieser Weise realisiert. Bei einigen Systeme können sich Nutzer gegen-
       seitg „persönliche Empfehlungen“ schicken.

       Pfadbasierte Empfehlungen
       Ausgehend von der Erfahrung, dass viele die gleichen Wege nutzen um durch das Web
       zu navigieren, wurde das sogenannte pfadbasierte Verfahren (Engl. trail based) für Emp-
       fehlungen entwickelt (u.a. Gams & Reich, 2004). Dazu wurde ein Konzept entwickelt, wie
       solche Pfade im Web beschrieben werden können, wie Ähnlichkeiten der Pfade berech-
       net werden können und wie Benutzer mit ähnlichen Spuren gefunden werden können
       (Gams, 2005). Auf Grundlage dieser Fußspuren von Gleichgesinnten und -interessierten
       sollen dann Empfehlungen für die weitere Navigaton gegeben werden. Der Ansatz wur-
       de also für die Informatonsrecherche im Web vorgeschlagen und entwickelt. Bei Gams
       (2005) wurden im Experiment drei Szenarien durchgespielt und zwar jeweils mit und
       ohne Unterstützung durch den Empfehlungsservice. Dabei galt es vier Rechercheaufga-
       ben zu erledigen, u.a. mussten Projektpläne von vier Projekten gefunden werden, die
       mit Miteln der Europäischen Kommission ko-fnanziert wurden. Das System erhielt hier
       erwartungsgemäß positve Werte.




           Tabelle 7, 8: Durchschnitliche Zahl der Schrite und Zeiten für die Erledigung von 4 Aufgaben
                                                      mit und ohne pfadbasierten Empfehlungen (n=14)
                                                          Quelle: Gams, 2005, Tabellen 7.4 und 7.5, 152



       Ontologiebasierte Ansätze
       Ontologiebasierte Ansätze verwendet weder inhaltsbasiertes noch kollaboratves Filtern
       wie oben beschrieben. Dieser Ansatz beruht im wesentlichen darauf, dass Ontologien
       verwendet werden. Mit ihrer Hilfe werden in diesem Fall auf fehlende Informatonen zu
       dem Nutzer geschlossen. Dadurch wird vermieden, dass die Nutzer z. B. fehlende Anga-
       ben in Fragebögen ergänzen müssen bzw. trotz lückenhafer Profle Empfehlungen gege-
       ben werden können. Ontologien sind eine Technologie, welche es erlaubt, reichhaltge
       Beziehungen auch für Computer berechenbar zu defnieren. Ontologien sind also kom-
       plexe Systeme der Datenbeschreibung, die von Experten entwickelt werden und Wis-
       sensbestände beschreiben. Mit ihnen lassen sich hierarchische Gliederungssysteme von
       Wissen (Taxonomien, z. B. Artenbeschreibungen in der Biologie), aber auch komplexe
       Angaben über die Relatonen von Wissen in einer Form darstellen, dass auch Computer
       diese verarbeiten können (vgl. Schafert u.a., 2009).




30
Schickel-Zuber (2007, 12) schließt bei den Einsatzmöglichkeiten die Finanzbranche, den
           Gaming- und den Gesundheitssektor aus. Dort würde er eher regelbasierte Ansätze ver-
           wenden. Für die von ihm untersuchten Anwendungsbereiche des Online-Handels mit
           umfangreichen Produktkatalogen hat er seinen Ansatz mit anderen Verfahren verglichen
           und gute Ergebnisse erhalten. Dabei zeigt sich u.a., dass der ontologiebasierte Ansatz
           v.a. im Bezug auf die Neuartgkeit der Empfehlungen sehr gute Werte erhält (S. 130). Die
           Ausarbeitungen von Schickel-Zuber (2007) wurden patentert und werden unter der Be-
           zeichnung „Prediggo Technologie“2 stark beworben.

           Tag-basierte Empfehlungen
           In traditonellen Medienarchiven werden Materialien zu Kategorien und Unterkategori-
           en zugeordnet, welche häufg auch zusätzliche Kurzbeschreibungen und Schlagworte
           beinhalten. Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten
           oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu mar-
           kieren, sie zu „taggen“ (von Engl. „tag“: Etket). Mit Hilfe der Tags können andere ent-
           sprechende Ressourcen recherchieren; schnell haben sich populäre Webdienste entwi-
           ckelt (vgl. Schafert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von
           traditonellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind
           beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also
           „eine ofene, efziente Möglichkeit der Klassifkaton von Dokumenten“, weil „eine brei-
           te Palete von unterschiedlichen Termen für die Beschreibung eines Dokuments bereit-
           gestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192).
           Tags werden als gute Datenbasis für Empfehlungen gesehen, da anzunehmen ist, dass
           Beiträge und Objekte ähnlich sind, wenn sie mit den identschen Tags versehen werden.
           Beispielsweise wird dieser Ansatz bei Librarything.com (2006) eingesetzt.
           Im Forschungsprojekt KiWi3 wird mit diesem Ansatz versucht, die Vorschläge für andere
           Wiki-Inhalte zu verbessern und auch semantsche Empfehlungen einzubauen, die auf
           den Tags der Nutzer des semantschen Wikis basieren (vgl. Dolog, 2009). Wir haben
           dazu Peter Dolog als zuständigen Experten Fragen gestellt.




2
    htp://www.prediggo.com, Stand 12/2009
3
    htp://www.kiwi-project.eu, Stand 02/2010


                                                                                                       31
Interview mit Peter Dolog zu tagbasierten Empfehlungen

 ? Social Tagging ist sehr populär. Warum ist es aus Ihrer Sicht hilfreich, auf Grundlage
 von nutzergenierten Schlagworten Empfehlungen zu geben?

 ! Da gibt es zwei Aspekte des Social Tagging: den persönlichen Aspekt (eigene Tags)
 sowie den sozialen Aspekt, nämlich Tags von Personen in der Community, mit denen
 man in Beziehung steht. In beiden Fällen repräsenteren Tags Interesse, persönlicher
 oder gemeinschaflicher Art. Wenn daher die Tags gut kombiniert werden, kann das
 helfen, neue Entwicklungen, Informatonen, Diskussionen und so weiter zu fnden und aufzuzeigen.

 ? Tags sind manchmal nur persönliche Aufgabenbeschreibungen wie "erledigen". Wie gehen Sie mit sol-
 chen Tags um, die ofensichtlich für andere keinen Sinn machen?

 ! Es gibt immer einen Weg der Normalisierung. Einige Tags können einfach bei der Berechnung von
 Empfehlungen ausgeschlossen werden, wenn sie keinen Sinn machen. Das ist jedoch domänenabhängig
 und benötgt Konfguratonen. Aber auch "Erledigen"-Tags sind wichtg, weil sie aktuelle Aufgaben re-
 präsenteren, die von anderen genutzt werden können, weil sie Hinweise darauf geben, für was die Res-
 source nützlich sein könnte. Auch diese Tags könnten also hilfreich sein, um Ressourcen zu empfehlen,
 aber dies hängt vom Kontext ab.

 ? Was empfehlen Sie Entwicklern, die über ein tag-basiertes Empfehlungssystem nachdenken?

 ! Sie sollten die Tags mit zusätzlichen Informatonen verknüpfen, um sie für Empfehlungen nützlich zu
 machen.

 Dr. Peter Dolog ist Professor für „Intelligent Web and Informaton Systems“ am Computer Science De-
 partment der Universität Aalborg in Dänemark. Er forscht dort zu tag-basierten Empfehlungssystemen.
 Ein vollständiges Profl fndet sich auf seiner Homepage htp://www.cs.aau.dk/~dolog/ (12/2010)




32
Beispiele für hybride Empfehlungssysteme
            Eine Übersicht über Beispiele für solche hybriden Lösungen fndet sich in Klahold (2009):

Name          Emp.-    Kurzbeschrei-      Eigenschafsanalyse      Proflbildung                    Distanzmaß           Literatur
              ele-     bung
              ment

Fab           Web-     Einzelne Analyse   TF-IDF-Derivat          Erstellung und Vergleich von    Cosinus-Ähnlich-   Balabano-
              seiten   zwischen Doku-                             Benutzerproflen (Verhalten      keitsmaß, Nearest vic u.a.
                       menten und Be-                             und Bewertungen)                Neighbours Verfah- (1997)
                       nutzern                                    Empfehlungen auf Basis der      ren
                                                                  Ähnlichkeit von Benutzern

PHOAKS       Web-      Nach News-       Manuelle Metadaten, Manuelle Erstellung des Pro-          Cosinus-Ähnlich-     Terveen,
(People Help seiten    groups gruppier- Heuristk, TF-IDF-Deri- fls durch Auswahl der News-        keitsmaß, Nearest    Hill, Amen-
One another            te Empfehlungen vat                     group                              Neighbours Verfah-   to, Mc Do-
Know Stuf)             relevanter Web-                                                            ren                  nald & Cre-
                       seiten                                                                                          ter (1997)

Let's Browse Web-      Webseiten (Sub-    TF-IDF-Derivat          Analyse einer „Start-Websei-    Cosinus-Ähnlich-     Lieberman,
             seiten    seiten, Links)                             te“ (einfaches explizites       keitsmaß             Van Dyke &
                       werden empfoh-                             Strukturprofl) sowie Verfol-                         Vivacqua
                       len                                        gung der Links                                       (1999)

CASMIR        Doku-    Empfehlung von     TF-IDF-Derivat          Erstellung eines Profls durch   Cosinus-Ähnlich-     Klahold
              mente    Dokumenten                                 die Gewichtung von Wort-        keitsmaß             (2009)
                       nach Relevanz                              vektoren (Interesse)

LaboUr        Web-     Auf Basis des      TF-IDF-Derivat          Generierung eines Benutzer-     Naiven Bayes Klas-   Pohl & Nick
(Learning     seiten   Profls werden                              profls aus dem impliziten       sifkator (NBK),      (1999)
about the              verwandte Be-                              Verhalten                       Pearson Korrelat-
User)                  nutzer gesucht                                                             onskoefzienten
                                                                                                  (PC)

Tango         Artkel   Noch nicht gele-   Manuelle Metadaten,    Manuelle Pfege (Kategorien, Overlap Koefzient Claypool
                       sene Artkel wer-   TF-IDF-Derivat,        Schlüsselworte)             (OK), Pearson Kor- u.a. (1999)
                       den empfohlen      Bewertung von Artkel                               relatonskoefzein-
                                          auf einer Skala von 1-                             ten (PC)
                                          10

Nakif         Filme    Filme werden       TF-IDF-Derivat          Manuelle Pfege: Benutzer        Heuristk             Klahold
                       empfohlen                                  sowie die Empfehlungsele-                            (2009)
                                                                  mente (z. B. Filme) haben ei-
                                                                  gene Profle; Kombinaton
                                                                  von Wertungsspalten

MovieLens     Filme    Filme werden       DoppelgaengerBots       Bewertung von Filmen auf ei- Heuristk, Pearson       Good,
                       empfohlen          (TF-IDF-Derivat) ana-   ner Skala von 1-5            Korrelatonskoef-        Schafer,
                                          lysieren die Filmbe-                                 zienten (PC), Cosi-     Konstan &
                                          schreibung                                           nus-Ähnlichkeits-       Borchers
                                          RipperBots – iterat-                                 maß                     (1999)
                                          ven Regelerzeugung
                                          GenreBots bewerten
                                          Filme in Abhängigkeit
                                          des Genres

                                              Tabelle 9: Übersicht über ausgewählte hybride Empfehlungssysteme
                                                                                     Quelle: Klahold, 2009, 144f




                                                                                                                                     33
34
3 EMPFEHLUNGSSYSTEME: AUSGEWÄHLTE EINSATZGEBIETE
   Überall dort, wo mit pffgen Ideen und guten Lösungen Geld verdient werden kann, ist
   es schwierig, konkrete Aussagen über technologische Lösungen zu bekommen. Dies
   trift nach unseren Erfahrungen insbesondere auf Empfehlungssysteme zu: Gute Lösun-
   gen für Empfehlungssysteme lassen sich in der Regel mit geringen Adaptonen an meh-
   rere Kunden aus unterschiedlichen Branchen verkaufen. Dabei gibt es jedoch keine Ver-
   lautbarungen dazu, welche Systeme, die zum Teil in der wissenschaflichen Literatur be-
   schrieben werden, bei Firmen eingesetzt werden. Hinzu kommt wohl auch, dass die ex-
   akten Vorgänge und Algorithmen of schwer zu beschreiben sind.




              Abbildung 7: Ausschnit aus der SonntagsZeitung zu einem Artkel über Gavin Poter,
                                                           Entwickler eines Empfehlungssystem
                                                      Quelle: SonntagsZeitung, 13. Juli 2008, 81


   Auf alle Fälle haten wir bei den folgenden Beschreibungen von Realisierungen der Emp-
   fehlungssysteme das Problem, dass es in der Regel nur unzureichende Beschreibungen
   der konkreten Lösung frei verfügbar gibt. Was da genau passiert, wird of mit einem
   Halbsatz abgehandelt, nach dem Moto „and the magic occurs“, oder es werden andere
   esoterische Bezüge gegeben (siehe Auszug der SonntagsZeitung in Abbildung 7).

 3.1 Überblick über fünf ausgewählte Einsatzgebiete
   Im Folgenden haben wir uns fünf Einsatzgebiete, in denen Reputatonssysteme zur Erfül-
   lung von unterschiedlichen Zwecken eingesetzt werden können, genauer angeschaut.
   Die Einsatzgebiete wurde gezielt so ausgewählt, dass eine möglichst weite Spanne abge-
   deckt und viele verschiedene Varianten vorgestellt werden können.




                                                                                                   35
Einsatzgebiet    Experten- und Ar-       Partnersuche             Produkte und            Web-Materialien       Prozess-
                 beitsplatzsuche                                  Dienstleistungen                              empfehlungen

Absicht          Arbeitsstellen bzw.     Finden von Lebens-       Unterstützung bei    Empfehlungen für         diverse (u.a. Arznei-
                 Experten mit größt-     partnern                 der Entscheidung für kostenlos zugängli-      verschreibung, Unter-
                 möglicher Passung                                Produkte und         che Materialien          stützung Lernender,
                 zu fnden                                         Dienstleistungen                              Fernsehprodukton)

Verfahren        Suchanfragen und        Eingangsbefragung, Alle bekannten Emp- of tagbasierte Emp- Inhaltsbasierte und
                 Ergebnisse aufgrund     Partnervorschläge     fehlungsverfahren fehlungen und kolla- kollaboratve Ansätze
                 eigenschafsbasier-      aufgrund paarpsy-     sind im Einsatz   boratves Filtern
                 ter Verfahren; aber     chologischer Er-
                 auch Inhalts- und       kenntnisse, eigen-
                 Netzwerkanalysen        schafsbasierte, teils
                                         fallbasierte Verfah-
                                         ren

Visualisierung   Ranglisten (v.a. Su-    Ranglisten mit Fo-       u.a. Treferlisten für   Markierung im Text,   Treferlisten, Vor-
                 chergebnisse)           tos, teils inkl. „Mat-   Empfehlungen am         Ranglisten            schläge, auch Signal-
                                         ching-Punkte“, auch      Seitenrand, Ranglis-                          ton (Alarm!)
                                         Benachrichtung per       ten, E-Mail-Benach-
                                         E-Mail                   richtgung

Anmerkung        Gewichtung der Ei-      Partnervorschläge        Online-Händler für    -                       Einige der Beispiele
                 genschafen (z. B.       nach Passung der Ei-     Bestseller verwen-                            sind nicht webbasiert
                 räumliche Nähe) z. T.   genschafen, auf-         den eher kollabort-
                 notwendig               grund persönlich-        ves Filtern, Nischen-
                                         keitspsychologischer     händler und Spezia-
                                         Untersuchungen           listen eher inhalts-
                                                                  basiertes Filtern

Beispiele        Virtueller Arbeits-     Parship, Friens-         Amazon, Zappas,     Photoree, fwd, Re-        ALOE, LIVE u.a.
                 markt, Manager          cout24, Elitepartner     Last.fm, Library-   Mashed u.a.
                 Lounge, Biomedex-                                Things, Preiser Re-
                 perts                                            cords, Pandora, Mo-
                                                                  vielens u.a.

                          Tabelle 10: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten


            Im folgenden stellen wir die einzelnen Bereiche und Beispiele vor, soweit wir dazu Infor-
            matonen gefunden haben.

          3.2 Experten- und Arbeitsplatzsuche im Web
            Während es nicht weiter schlimm ist, mal eine Filmempfehlungen zu erhalten, die nicht
            ganz den eigenen Geschmack trift, sind Fehlgrife bei der Personalauswahl deutlich ver-
            heerender. Nicht zuletzt daher wird hier versucht, „fehlerhafe“ Empfehlungen weitest-
            gehend zu vermeiden. Ofensichtliche Vorteile bieten Online-Jobbörsen, Business-Clubs
            und Karriere- oder Expertenplatormen daher nicht nur für Unternehmen, sondern
            auch für Arbeitssuchende selbst.
            Im folgenden stellen wir Empfehlungssysteme für die Arbeitsplatz- und Expertensuche
            vor. Wie sich zeigt, arbeiten diese, soweit wir dies von aussen beurteilen können, fast
            alle mit einem eigenschafsbasierten Ansatz, d.h. Empfehlungen werden aufgrund des
            Nutzerprofls bzw. der Sucheingaben gegeben. Bei der vorgestellten Expertensuche im
            biomedizinischen Bereich wird neben semantsch unterstützten Auswertungen der Ver-
            öfentlichungen als Grundlage eine soziale Netzwerksanalyse verwendet. Schließlich
            stellen wir kurz das Modell eines Empfehlungsservices für Arbeitnehmer vor, der auf kol-
            laboratvem Filtern, nämlich Angaben von Arbeitgebern, beruhen soll.




36
Virtueller Arbeitsmarkt der deutschen Arbeitsagenturen
           Am „Virtuellen Arbeitsmarkt“, der Stellen- und Bewerberbörse der deutschen Bundesan-
           stalt für Arbeit, werden Arbeitssuchenden Stellenvorschläge gemacht. Als Arbeitssu-
           chender kann man in der Detailsuche bis zu 15 Kriterien angeben, beispielsweise Regi-
           on, PLZ, Mindestgehalt. Im System können sich auch Arbeitgeber Stellensuchende vor-
           schlagen lassen, dabei sind u.a. auch persönliche und soziale Fähigkeiten auswählbar.
           Diese Informatonen beruhen auf den Selbstauskünfen der Stellensuchenden.
           Zwar unterliegen die genauen verwendeten Empfehlungsverfahren der Geheimhaltung,
           es ist aber bekannt, dass die Sofware ELISE 5.0 von der Firma WCC eingesetzt wird, die
           auch beim englischen Arbeitsmarktservice, dem „Job Center Plus“ verwendet wird (vgl.
           Heymann, 2004, 14). Daher werden wird uns im folgenden darauf beschränken müssen,
           die Funktonalitäten zu beschreiben. Ofensichtlich wird im System jedoch kein kollabo-
           ratves Filtern eingesetzt, weil keine entsprechenden Daten erfragt werden (z. B. Bewer-
           tungen von Arbeitgebern oder Arbeitssuchenden).
           In einer Seminararbeit weisst Heymann darauf hin, dass das System Schwierigkeiten hat,
           die korrekte Semantk zu erkennen: „So erhält man bei der Suche nach einem „Astro-
           nom“ eine 100%ige Trefergenauigkeit für einen „Gastronom“. Gibt man die im Arbeits-
           leben synonymen Begrife „Logopäde“, „Sprachtherapeut“ und „Sprachheilpädagoge“ an
           (…), so werden nur Trefer mit der exakten Berufsbezeichnung geliefert“ (Heymann,
           2004, 15). Ein Test hat ergeben, dass auch heute bei der Suche nach dem Beruf „Astro-
           nom“ auch diverse Gastronomie-Berufe vorgeschlagen werden und Stellensuchende un-
           bedingt alle synonym verwendeten Berufsbezeichnungen verwenden sollten, um alle
           Stellenanzeigen zu sehen: Weiterhin erhält man bei der Suche nach „Logopäde“ nicht
           auch automatsch alle Anzeigen für „Sprachtherapeut“ oder „Sprachheilpädagoge“4. Da
           im Formular angekreuzt werden kann „Keine Stellenangebote mit ähnlichen Berufen an-
           zeigen“ geht ein Stellensucher höchstwahrscheinlich (und irrtümlich) davon aus, ver-
           wandte Stellen angezeigt zu bekommen. Heymann (2004) fasst zusammen, und auf-
           grund des von uns gewonnen Eindruck bestätgen wir diesen Eindruck, „dass das Ge-
           samtsystem derzeit noch nicht die Leistung bietet, die a) von der Bundesagentur ange-
           strebt wird und b) den Anwendern des Systems den Eindruck vermitelt, ein kompe-
           tentes Empfehlungssystem zu sein“ (S. 16).

           Die Jobbörse Manager-Lounge
           Manager-Lounge5 ist eine internetbasierte Jobbörse, die sich auf die Vermitlung von
           Top-Management-Positonen ab einem Jahresgehalt von 100.000 Euro spezialisiert hat
           und dabei wie ein Businessclub agiert. Die streng defnierten Aufnahmebedingungen (z.
           B. mehrjährige Personal-, Budget- und Führungsverantwortung) sollen Exklusivität ga-
           ranteren. Derzeit gibt es einen geschlossenen Mitgliederkreis von über 2.200 Personen,
           die sich auch auf regelmäßig statindenden lokalen Versammlungen trefen. Erst nach
           einer erfolgreichen Testphase (z. B. Coaching- und Aufnahme-Telefonat, Einhaltung der
           Clubregeln, Engagement) wird das Mitglied in den kostenpfichtgen Club aufgenommen.
           Die Daten für das Profl des Bewerbers werden nach und nach manuell von Manager-
           Lounge selbst in den sogenannten MatchManager übertragen und stellen die Basis für
           den Vermitlungsprozess dar. Die Erhebung der Daten erfolgt dabei durch ein elektroni-
           sches oder schrifliches Antragsformular, das von dem Bewerber mit den wichtgsten

4
    Diese Überprüfung wurde am 23.1.2010 vorgenommen.
5
    htps://manager-lounge.manager-magazin.de, Stand 02/2010


                                                                                                     37
Daten (z. B. Kontakt, Alter, derzeitge Stelle) ausgefüllt werden muss, sowie ein telefoni-
           sches Coaching- und Aufnahmegespräch, in dem die Angaben des Antragstellers über-
           prüf sowie ein Lebenslauf und Fähigkeitenprofl erstellt werden.
           Unternehmen, die nach Bewerbern in der Manager-Lounge suchen, geben ein Suchpro-
           fl in den sogenannten Match-Manager ein. Dieses wird mit den in der Datenbank vor-
           handenen Proflen abgeglichen. Als Abfragekriterium sind auch Und- und Oder-Verknüp-
           fungen möglich. Das Suchprofl umfasst sieben Kategorien, wie beispielsweise Positon,
           Funkton, Branche und Alter. Als Ergebnis werden anonymisierte Mitglieder angezeigt,
           die den Auswahlkriterien entsprechen. Hat das Unternehmen Interesse an einem be-
           stmmten Person gefunden, dann kann es mit dem Kandidaten in Kontakt treten. Dem
           Angeschriebenen steht es dann auch frei, seine Anonymität aufzuheben und seinen Le-
           benslauf zur Ansicht freizugeben (Heymann, 2004, 17f).

           Biomedexperts
           Strukturiertes Wissen und ein vielseitges Netzwerk sind wichtge Voraussetzungen für
           die wissenschafliche Zusammenarbeit. Biomedexperts6 ist ein soziales Netzwerk, das
           Forscher und Experten im Anwendungsfeld der Biowissenschafen sowie Mediziner und
           Fachjournalisten zusammenbringt, um einen länderübergreifenden wissenschaflichen
           Austausch sowie ein gemeinsames Arbeiten zu ermöglichen und zu verbessern. Die für
           Mitglieder kostenlose Platorm wurde 2008 von Collexis7 ins Leben gerufen. Seitdem
           sind über 270.000 Biowissenschafler dem Netzwerk beigetreten. Nachdem sich der
           Nutzer angemeldet hat und sein Fachgebiet angegeben hat, liefert ihm das System Ex-
           perten aus dem Sachgebiet auf der Basis der Häufgkeit von wissenschaflichen Publika-
           tonen. Biomedexpert wertet dazu kontnuierlich Publikatonen aus dem Fachgebiet aus
           und generiert und ergänzt so automatsch Profle der Mitglieder. Biomedexperts schaft
           es auf diesem Weg weltweit fast alle Forscher im Bereich der Biowissenschafen, die in
           den letzten zehn Jahren publiziert haben, in das Netzwerk einzubeziehen, sämtliche re-
           levanten professionellen Verbindungen innerhalb des Netzwerks zu analysieren und
           neue mögliche Forschungspartner, Mitautoren, usw. ausfndig zu machen. Mitglieder
           können im System nach Name, Land oder Schlüsselwörter (z. B. Krankheiten, Sympto-
           me) suchen und so ihr eigenes Netzwerk aufauen, welches auch die Koautoren von Ko-
           autoren umfasst. Wie bei sozialen Netzwerken üblich, können neue Kollegen eingeladen
           werden und Mitglieder dem eigenen Netzwerk hinzufügen. Auch ist ein detailliertes wis-
           senschafliches Profl mit den Publikatonen des Mitglieds, deren Relevanz sowie der Pu-
           blikatonshäufgkeit im Verlauf der Jahre einzusehen. Eine geographische Darstellung
           zeigt in welchen Ländern der jeweilige Experte vernetzt ist (Herzog & Dix, 2009).
           Durch die sogenannte „Fingerprint-Technologie“ (Engl. für „Fingerabdruck“), die hinter
           dem System von Biomedexperts steckt, werden mehrdeutge oder irrelevante Ergebnis-
           se automatsch eliminiert. Dies ist durch eine semantsche Analyse von Textdokumen-
           ten, durch die interne und externe Dokumente analysiert, aggregiert und semantsch
           verknüpf werden können, möglich. „Die semantsche Analyse erfolgt auf der Basis eines
           oder mehrerer Thesauri. Bei der Indexierung eines Textes wird jeder Begrif des Doku-
           mentes mit den eingebundenen Fachthesauri verglichen. Taucht ein Begrif sowohl im
           Text als auch im Thesaurus auf, wird er in dem sogenannten Fingerprint des Dokuments
           gespeichert. Für jeden Begrif des Fingerprints wird nun mitels komplexer Algorithmen
           die Relevanz im Kontext des verarbeitenden Textes ermitelt. So wird eine gewichtete In-

6
    htp://www.biomedexperts.com, Stand 02/2009
7
    htp://www.collexis.com, Stand 02/2010


38
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen
Empfehlungen im Web. Konzepte und Realisierungen

Weitere ähnliche Inhalte

Was ist angesagt?

Benchlearning Projekt Social Intranet 2012 (#blp12)
Benchlearning Projekt Social Intranet 2012 (#blp12)Benchlearning Projekt Social Intranet 2012 (#blp12)
Benchlearning Projekt Social Intranet 2012 (#blp12)Cogneon Akademie
 
Awareness durch Microinformationen
Awareness durch MicroinformationenAwareness durch Microinformationen
Awareness durch MicroinformationenCommunardo GmbH
 
Social What? Zur Theorie der Webpraktiken
Social What? Zur Theorie der WebpraktikenSocial What? Zur Theorie der Webpraktiken
Social What? Zur Theorie der WebpraktikenNele Heise
 
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...eBusinessLotse-Suedwestfalen-Hagen
 
Social Media in der Medienarbeit - Inhalt und Einstieg
Social Media in der Medienarbeit - Inhalt und EinstiegSocial Media in der Medienarbeit - Inhalt und Einstieg
Social Media in der Medienarbeit - Inhalt und EinstiegBernet Relations
 
Publikumsbeteiligung bei der SZ und sueddeutsche.de
Publikumsbeteiligung bei der SZ und sueddeutsche.dePublikumsbeteiligung bei der SZ und sueddeutsche.de
Publikumsbeteiligung bei der SZ und sueddeutsche.dejpub 2.0
 
Social Media: Mirko Lange @sagner-heinze
Social Media: Mirko Lange @sagner-heinzeSocial Media: Mirko Lange @sagner-heinze
Social Media: Mirko Lange @sagner-heinzesagnerheinze
 
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.Communote GmbH
 
Social Media in der internen Unternehmenskommunikation
Social Media in der internen UnternehmenskommunikationSocial Media in der internen Unternehmenskommunikation
Social Media in der internen UnternehmenskommunikationHIRSCHTEC
 
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu..."Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...jpub 2.0
 
Vorlesung "Online PR" an der BAW
Vorlesung "Online PR" an der BAWVorlesung "Online PR" an der BAW
Vorlesung "Online PR" an der BAWScribbleLive
 
So baue ich meine Online-Reputation
So baue ich meine Online-ReputationSo baue ich meine Online-Reputation
So baue ich meine Online-Reputationmcschindler.com gmbh
 
Social Media - den Hype auf den Boden bringen Volume 7
Social Media - den Hype auf den Boden bringen Volume 7Social Media - den Hype auf den Boden bringen Volume 7
Social Media - den Hype auf den Boden bringen Volume 7ScribbleLive
 

Was ist angesagt? (20)

Folien Webinar Onine Journalismus Session 1
Folien Webinar Onine Journalismus Session 1Folien Webinar Onine Journalismus Session 1
Folien Webinar Onine Journalismus Session 1
 
Benchlearning Projekt Social Intranet 2012 (#blp12)
Benchlearning Projekt Social Intranet 2012 (#blp12)Benchlearning Projekt Social Intranet 2012 (#blp12)
Benchlearning Projekt Social Intranet 2012 (#blp12)
 
Community Management Blaupause
Community Management BlaupauseCommunity Management Blaupause
Community Management Blaupause
 
Awareness durch Microinformationen
Awareness durch MicroinformationenAwareness durch Microinformationen
Awareness durch Microinformationen
 
Social What? Zur Theorie der Webpraktiken
Social What? Zur Theorie der WebpraktikenSocial What? Zur Theorie der Webpraktiken
Social What? Zur Theorie der Webpraktiken
 
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...
Vernetzung die Spaß macht - Social Media Einsatz bei den Unternehmerfrauen im...
 
Social Media in der Unternehmenskommunikation - Leseprobe
Social Media in der Unternehmenskommunikation - LeseprobeSocial Media in der Unternehmenskommunikation - Leseprobe
Social Media in der Unternehmenskommunikation - Leseprobe
 
Social Media in der Internen Kommunikation - Leseprobe
Social Media in der Internen Kommunikation - Leseprobe Social Media in der Internen Kommunikation - Leseprobe
Social Media in der Internen Kommunikation - Leseprobe
 
Social Media in der Medienarbeit - Inhalt und Einstieg
Social Media in der Medienarbeit - Inhalt und EinstiegSocial Media in der Medienarbeit - Inhalt und Einstieg
Social Media in der Medienarbeit - Inhalt und Einstieg
 
Publikumsbeteiligung bei der SZ und sueddeutsche.de
Publikumsbeteiligung bei der SZ und sueddeutsche.dePublikumsbeteiligung bei der SZ und sueddeutsche.de
Publikumsbeteiligung bei der SZ und sueddeutsche.de
 
Social Media: Mirko Lange @sagner-heinze
Social Media: Mirko Lange @sagner-heinzeSocial Media: Mirko Lange @sagner-heinze
Social Media: Mirko Lange @sagner-heinze
 
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.
Twitter und Co. im Unternehmen - Höhere Produktivität durch Microblogging.
 
Social Media in der internen Unternehmenskommunikation
Social Media in der internen UnternehmenskommunikationSocial Media in der internen Unternehmenskommunikation
Social Media in der internen Unternehmenskommunikation
 
Medienarbeit im Wandel (2015)
Medienarbeit im Wandel (2015)Medienarbeit im Wandel (2015)
Medienarbeit im Wandel (2015)
 
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu..."Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...
"Bitte schließen Sie den Kommentarbereich!" Erwartungen und Erwartungserwartu...
 
Vorlesung "Online PR" an der BAW
Vorlesung "Online PR" an der BAWVorlesung "Online PR" an der BAW
Vorlesung "Online PR" an der BAW
 
Kommunikation von Nachhaltigkeit im Web 2.0 | Handreichung
Kommunikation von Nachhaltigkeit im Web 2.0 | HandreichungKommunikation von Nachhaltigkeit im Web 2.0 | Handreichung
Kommunikation von Nachhaltigkeit im Web 2.0 | Handreichung
 
So baue ich meine Online-Reputation
So baue ich meine Online-ReputationSo baue ich meine Online-Reputation
So baue ich meine Online-Reputation
 
Nachhaltigkeit und Social Media | Offene partizipative Kommunikation
Nachhaltigkeit und Social Media | Offene partizipative KommunikationNachhaltigkeit und Social Media | Offene partizipative Kommunikation
Nachhaltigkeit und Social Media | Offene partizipative Kommunikation
 
Social Media - den Hype auf den Boden bringen Volume 7
Social Media - den Hype auf den Boden bringen Volume 7Social Media - den Hype auf den Boden bringen Volume 7
Social Media - den Hype auf den Boden bringen Volume 7
 

Andere mochten auch

Warum Sie Empfehlungsmarketing nutzen sollten
Warum Sie Empfehlungsmarketing nutzen solltenWarum Sie Empfehlungsmarketing nutzen sollten
Warum Sie Empfehlungsmarketing nutzen solltenFredrik Böhle
 
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...Sandra Schön (aka Schoen)
 
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...Sandra Schön (aka Schoen)
 
Boletim "A Revolução dos Cravos" no Second Life
Boletim "A Revolução dos Cravos" no Second LifeBoletim "A Revolução dos Cravos" no Second Life
Boletim "A Revolução dos Cravos" no Second LifeCélia Gaião
 
Soziale Medien_für_Unternehmen_IBR-public
Soziale Medien_für_Unternehmen_IBR-publicSoziale Medien_für_Unternehmen_IBR-public
Soziale Medien_für_Unternehmen_IBR-publicChristian Robbin
 
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...DAVID MALAM
 
Molusquicidas
Molusquicidas Molusquicidas
Molusquicidas vive12
 
Mr Fishys Adventure
Mr Fishys AdventureMr Fishys Adventure
Mr Fishys AdventureAli Mulhall
 
Processo - Contratação de Pessoal - Santa Cruz do Capibaribe
Processo - Contratação de Pessoal - Santa Cruz do CapibaribeProcesso - Contratação de Pessoal - Santa Cruz do Capibaribe
Processo - Contratação de Pessoal - Santa Cruz do CapibaribeBruno Muniz
 
Vorschau Ratgeberreihe Cross-Channel-Commerce
Vorschau Ratgeberreihe Cross-Channel-CommerceVorschau Ratgeberreihe Cross-Channel-Commerce
Vorschau Ratgeberreihe Cross-Channel-CommerceOXID eSales AG
 
Outils de publications et de partages en bibliothèques : applications
Outils de publications et de partages en bibliothèques : applicationsOutils de publications et de partages en bibliothèques : applications
Outils de publications et de partages en bibliothèques : applicationsThomas Chaimbault-Petitjean
 
LES PARTENAIRES DES AVOCATS
LES PARTENAIRES DES AVOCATSLES PARTENAIRES DES AVOCATS
LES PARTENAIRES DES AVOCATSELLIGROUPE
 
Invertir en Perú Contact Center
Invertir en Perú Contact CenterInvertir en Perú Contact Center
Invertir en Perú Contact CenterTELEACCION
 

Andere mochten auch (17)

Warum Sie Empfehlungsmarketing nutzen sollten
Warum Sie Empfehlungsmarketing nutzen solltenWarum Sie Empfehlungsmarketing nutzen sollten
Warum Sie Empfehlungsmarketing nutzen sollten
 
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...
Online-Gemeinschaften initiieren, pflegen und nutzen - aus der Sicht von Bild...
 
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
Mobile Gemeinschaften. Erfolgreiche Beispiele aus den Bereichen Spielen, Lern...
 
Boletim "A Revolução dos Cravos" no Second Life
Boletim "A Revolução dos Cravos" no Second LifeBoletim "A Revolução dos Cravos" no Second Life
Boletim "A Revolução dos Cravos" no Second Life
 
Soziale Medien_für_Unternehmen_IBR-public
Soziale Medien_für_Unternehmen_IBR-publicSoziale Medien_für_Unternehmen_IBR-public
Soziale Medien_für_Unternehmen_IBR-public
 
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...
Resilienz für Unternehmen -Prävention durch Arbeits-und Organisationspsycholo...
 
No 15 del_3_al_6_junio
No 15 del_3_al_6_junioNo 15 del_3_al_6_junio
No 15 del_3_al_6_junio
 
Molusquicidas
Molusquicidas Molusquicidas
Molusquicidas
 
Mr Fishys Adventure
Mr Fishys AdventureMr Fishys Adventure
Mr Fishys Adventure
 
The ohb times 013
The ohb times 013The ohb times 013
The ohb times 013
 
Processo - Contratação de Pessoal - Santa Cruz do Capibaribe
Processo - Contratação de Pessoal - Santa Cruz do CapibaribeProcesso - Contratação de Pessoal - Santa Cruz do Capibaribe
Processo - Contratação de Pessoal - Santa Cruz do Capibaribe
 
Albayzin informa-2014
Albayzin informa-2014Albayzin informa-2014
Albayzin informa-2014
 
Vorschau Ratgeberreihe Cross-Channel-Commerce
Vorschau Ratgeberreihe Cross-Channel-CommerceVorschau Ratgeberreihe Cross-Channel-Commerce
Vorschau Ratgeberreihe Cross-Channel-Commerce
 
Outils de publications et de partages en bibliothèques : applications
Outils de publications et de partages en bibliothèques : applicationsOutils de publications et de partages en bibliothèques : applications
Outils de publications et de partages en bibliothèques : applications
 
Dell
DellDell
Dell
 
LES PARTENAIRES DES AVOCATS
LES PARTENAIRES DES AVOCATSLES PARTENAIRES DES AVOCATS
LES PARTENAIRES DES AVOCATS
 
Invertir en Perú Contact Center
Invertir en Perú Contact CenterInvertir en Perú Contact Center
Invertir en Perú Contact Center
 

Ähnlich wie Empfehlungen im Web. Konzepte und Realisierungen

Schmidt socialmedia 2010_print
Schmidt socialmedia 2010_printSchmidt socialmedia 2010_print
Schmidt socialmedia 2010_printJan Schmidt
 
Das neue Gesicht der Öffentlichkeit
Das neue Gesicht der ÖffentlichkeitDas neue Gesicht der Öffentlichkeit
Das neue Gesicht der ÖffentlichkeitFESD GKr
 
Kooperation und social media in der forschung
Kooperation und social media in der forschungKooperation und social media in der forschung
Kooperation und social media in der forschungdpscheida
 
Schmidt socialmedia 2011_print
Schmidt socialmedia 2011_printSchmidt socialmedia 2011_print
Schmidt socialmedia 2011_printJan Schmidt
 
Neue Öffentlichkeiten Hürth 2009 Print
Neue Öffentlichkeiten Hürth 2009 PrintNeue Öffentlichkeiten Hürth 2009 Print
Neue Öffentlichkeiten Hürth 2009 PrintJan Schmidt
 
Vortrag düsseldorf 2011_print
Vortrag düsseldorf 2011_printVortrag düsseldorf 2011_print
Vortrag düsseldorf 2011_printJan Schmidt
 
Orientierung in Öffentlichkeiten des Social Web
Orientierung in Öffentlichkeiten des Social WebOrientierung in Öffentlichkeiten des Social Web
Orientierung in Öffentlichkeiten des Social WebJan Schmidt
 
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14SabrinaHerbst
 
Kathi Woitas - Social Networks Wissenschaft
Kathi Woitas - Social Networks WissenschaftKathi Woitas - Social Networks Wissenschaft
Kathi Woitas - Social Networks WissenschaftKathi Woitas
 
Kommunikationswandel hamburg 2010_print
Kommunikationswandel hamburg 2010_printKommunikationswandel hamburg 2010_print
Kommunikationswandel hamburg 2010_printJan Schmidt
 
Social Media in der Wissenschaft
Social Media in der WissenschaftSocial Media in der Wissenschaft
Social Media in der Wissenschaftuherb
 
Web2.0 - Innovativ kommunizieren
Web2.0 - Innovativ kommunizierenWeb2.0 - Innovativ kommunizieren
Web2.0 - Innovativ kommunizierendavidroethler
 
Persönliche Öffentlichkeiten Halle 2009
Persönliche Öffentlichkeiten Halle 2009Persönliche Öffentlichkeiten Halle 2009
Persönliche Öffentlichkeiten Halle 2009Jan Schmidt
 
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...Jan Schmidt
 
Social-Web-Angebote im Alltag von Jugendlichen
Social-Web-Angebote im Alltag von JugendlichenSocial-Web-Angebote im Alltag von Jugendlichen
Social-Web-Angebote im Alltag von JugendlichenJan Schmidt
 
Netzwerkplattformen und soziale Netzwerke
Netzwerkplattformen und soziale NetzwerkeNetzwerkplattformen und soziale Netzwerke
Netzwerkplattformen und soziale NetzwerkeJan Schmidt
 

Ähnlich wie Empfehlungen im Web. Konzepte und Realisierungen (20)

Schmidt socialmedia 2010_print
Schmidt socialmedia 2010_printSchmidt socialmedia 2010_print
Schmidt socialmedia 2010_print
 
Das neue Gesicht der Öffentlichkeit
Das neue Gesicht der ÖffentlichkeitDas neue Gesicht der Öffentlichkeit
Das neue Gesicht der Öffentlichkeit
 
Kooperation und social media in der forschung
Kooperation und social media in der forschungKooperation und social media in der forschung
Kooperation und social media in der forschung
 
Schmidt socialmedia 2011_print
Schmidt socialmedia 2011_printSchmidt socialmedia 2011_print
Schmidt socialmedia 2011_print
 
Neue Öffentlichkeiten Hürth 2009 Print
Neue Öffentlichkeiten Hürth 2009 PrintNeue Öffentlichkeiten Hürth 2009 Print
Neue Öffentlichkeiten Hürth 2009 Print
 
Vortrag düsseldorf 2011_print
Vortrag düsseldorf 2011_printVortrag düsseldorf 2011_print
Vortrag düsseldorf 2011_print
 
Orientierung in Öffentlichkeiten des Social Web
Orientierung in Öffentlichkeiten des Social WebOrientierung in Öffentlichkeiten des Social Web
Orientierung in Öffentlichkeiten des Social Web
 
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14
"Von Infrastrukturen zu Möglichkeitsräumen" Vortrag #GMW14
 
Kathi Woitas - Social Networks Wissenschaft
Kathi Woitas - Social Networks WissenschaftKathi Woitas - Social Networks Wissenschaft
Kathi Woitas - Social Networks Wissenschaft
 
Kommunikationswandel hamburg 2010_print
Kommunikationswandel hamburg 2010_printKommunikationswandel hamburg 2010_print
Kommunikationswandel hamburg 2010_print
 
Social Media in der Wissenschaft
Social Media in der WissenschaftSocial Media in der Wissenschaft
Social Media in der Wissenschaft
 
Community Research am Beispiel des deutschen Biermarkts
Community Research am Beispiel des deutschen BiermarktsCommunity Research am Beispiel des deutschen Biermarkts
Community Research am Beispiel des deutschen Biermarkts
 
Web2.0 - Innovativ kommunizieren
Web2.0 - Innovativ kommunizierenWeb2.0 - Innovativ kommunizieren
Web2.0 - Innovativ kommunizieren
 
Web2.0 Wieselburg
Web2.0 WieselburgWeb2.0 Wieselburg
Web2.0 Wieselburg
 
Vortrag verband
Vortrag verbandVortrag verband
Vortrag verband
 
Persönliche Öffentlichkeiten Halle 2009
Persönliche Öffentlichkeiten Halle 2009Persönliche Öffentlichkeiten Halle 2009
Persönliche Öffentlichkeiten Halle 2009
 
Social Media
Social MediaSocial Media
Social Media
 
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...
Vernetzte Öffentlichkeiten 2013, Sitzung 8, "Informationsfluss in vernetzten ...
 
Social-Web-Angebote im Alltag von Jugendlichen
Social-Web-Angebote im Alltag von JugendlichenSocial-Web-Angebote im Alltag von Jugendlichen
Social-Web-Angebote im Alltag von Jugendlichen
 
Netzwerkplattformen und soziale Netzwerke
Netzwerkplattformen und soziale NetzwerkeNetzwerkplattformen und soziale Netzwerke
Netzwerkplattformen und soziale Netzwerke
 

Empfehlungen im Web. Konzepte und Realisierungen

  • 1. Schriftenreihe: Social media band 3   © sxc.hu    B "    Empfehlungen im Web Konzepte und Realisierungen Sandra Schaffert, Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof
  • 2.
  • 3. Sandra Schafert Empfehlungen im Web Konzepte und Realisierungen mit Beiträgen von Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof
  • 4. Salzburg NewMediaLab (SNML), das Kompetenzzentrum für Neue Medien, gab die vorliegende Broschüre im Rahmen des Projekts „ComStudy“ (Leitung: Dr. Sandra Schafert) in Aufrag. Unter der Leitung von DI Georg Güntner arbeitet das SNML dar- an, digitale Inhalte clever zu strukturieren, verknüpfen, personalisieren, für alle auf- fndbar zu machen und nachhaltg zu nutzen. Das SNML ist ein industrielles Kompe- tenzzentrum im Rahmen der Aktonslinie Kind des Bundesministeriums für Wirtschaf und Arbeit (BMWA) und wird gefördert aus Miteln des BMWA und des Landes Salz- burg. Homepage: newmedialab.at © Salzburg NewMediaLab 2010 ISBN 978-3-902448-16-3 Sandra Schafert, Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof: Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“, herausgegeben von Georg Güntner und Sebastan Schafert Verlag und Herstellung: Salzburg Research, Salzburg Umschlaggestaltung: Daniela Gnad, Salzburg Research Lektorat: Andreas Strasser und Renate Steinmann, Salzburg Research Bibliografsche Informaton der Deutschen Natonalbibliothek: Die Deutsche Natonalbibliothek verzeichnet diese Publikaton in der Deutschen Natonalbibliografe; detaillierte bibliografsche Daten sind im Internet über htp://dnb.d-nb.de abrufar.
  • 5. VORWORT Das Kompetenzzentrum für Neue Medien, das Salzburg NewMediaLab, betrachtet im Rahmen seines Forschungsprogramms die Wechselwirkung zwischen digitalen Inhalten und ihren Autor(inn)en bzw. Konsument(inn)en aus technologischer und sozialer Per- spektve. Dabei ergibt sich naturgemäß die Frage, welche Art von Beziehungen zwischen Autor(inn)en und Leser(innen) untereinander, aber auch zu den von ihnen erstellten bzw. konsumierten Inhalten besteht. Weiters untersuchen wir, wie sich die aufgrund die- ser Beziehungen entstehenden Gemeinschafen auf die Atraktvität und Nutzung der In- halte sowie auf das Angebot von erweiterten Diensten auswirkt. Unter der Bezeichnung „ComStudy“ wurde im Oktober 2009 am Salzburg NewMediaLab eine Studie gestartet, die sich mit Orienterungs- und Entscheidungshilfen für den Auf- bau und die Nutzung von Online-Communitys beschäfigt. Dabei betrachten wir auch die in der Wechselwirkung von Inhalten und Communitys anfallenden Metainformato- nen und die auf den Inhalten basierenden Dienste, wie etwa Empfehlungs- und Reputa- tonssysteme. Das Informatonsangebot im Internet ist mitlerweile so angewachsen und unübersicht- lich geworden, dass Suchmaschinen alleine die Flut der Daten für die Benutzer(innen) nicht mehr ausreichend fltern und darstellen können. Deswegen gehen fortschritliche Informatonsplatormen und digitale soziale Netzwerke zunehmend dazu über, das Pa- radigma des Suchens umzukehren: Nicht mehr die Benutzer(innen) suchen nach Infor- matonen, sondern die Informatonen suchen (und fnden) die Benutzer(innen). Voraus- setzung dafür sind Empfehlungssysteme, die Informatonen nach unterschiedlichen Ge- sichtspunkten – z.B. anhand der Profle der Anwender(nnen) – (semi-)automatsch aus- wählen, fltern und vorschlagen. Der vorliegende Band stellt Ansätze und Methoden für Empfehlungssysteme vor, zeigt mögliche Einsatzgebiete auf und gibt praktsche Hinweise für die Implementerung solcher Systeme. Die Darstellung der Analyse und von deren Ergebnissen erfolgt – wie in den beiden vor- angehenden Publikatonen – stets unter dem Gesichtspunkt, den Leserinnen und Lesern praktsche Orienterungs- und Entscheidungshilfen für die Konzepton und Umsetzung zur Verfügung zu stellen. Im Namen des Salzburg NewMediaLab wünsche ich Ihnen in diesem Sinne bei der Lektüre viele brauchbare Anregungen und viel Erfolg bei der prak- tschen Umsetzung in Ihren Online-Communitys oder bei Ihren Informatonssystemen. Georg Güntner Leiter des Salzburg NewMediaLab Februar 2010
  • 6. DANK & ANMERKUNG ZUR SCHREIBWEISE Herzlichen Dank an Prof. Dr. Peter Dolog, Dr. Hendrik Drachsler sowie Dr. Marco Kalz für Ihre Bereitschaf, uns in diesem Studie einige Fragen zu beantworten und uns so an ih- rer Expertse teilhaben zu lassen. Danke auch an meine Kolleginnen und Kollegen: an Mag. Diana Wieden-Bischof und Mag. Wolf Hilzensauer für ihre Unterstützung bei der Recherche und Beschreibung von Beispielen; an Dr. Tobias Bürger für seinen Beitrag zu LIVE und sein Feedback zur Studie sowie an DI (FH) Mag. Cornelia Schneider für ihren Beitrag zu Empfehlungssystemen im Gesundheitsbereich, an Mag. Renate Steinmann und Dr. Andreas Strasser für das Lekto- rat, danke auch an Daniela Gnad für das Titelbild! Da die Gefahr groß ist, die eine oder den anderen zu übersehen, der bei den Trefen, oder in E-Mails oder beim informellen Gespräch beim Kafee hilfreich war, danke ich den weiteren Kolleg(inn)en ohne einzelne Namen zu nennen: Wie bei jeder der Veröfentli- chungen im Rahmen des Projektes ComStudy stecken auch hier hinter vielen Ideen und Hinweisen auf interessante Tools, Projekte, Veröfentlichungen und Expert(inn)en zahl- reiche Kolleg(inn)en des Salzburg NewMediaLab und der Salzburg Research Forschungs- gesellschaf. Es macht Spaß, mit so vielen cleveren Köpfen zusammenzuarbeiten! Schließlich, wie bei den bisherigen Veröfentlichungen dieser Reihe auch hier: Um die- sen Beitrag nicht durch weibliche Endungen, Bindestriche und Klammern zu einem zwar korrekten, aber auch schwerer zu lesenden Werk zu machen, haben wir im Folgenden durchgehend darauf verzichtet, die gendergerechte Schreibweise zu verwenden. Zudem haben wir uns bemüht, auf englische Ausdrücke oder Lehenswörter zu verzichten, wo sie uns unnötg erschienen – aber im Bereich des Internets und der modernen Manage- mentheorie kommt man leider viel zu of nicht darum herum. Sandra Schafert Salzburg Research Forschungsgesellschaf Februar 2010
  • 7. INHALTSVERZEICHNIS 1 Einleitung und Hintergrund........................................................................................ 9 1.1 Empfehlungen im Web........................................................................................... 9 1.2 Schwerpunkte, Forschungsfragen und Vorgehen.................................................10 1.3 Hintergrund.......................................................................................................... 10 2 Empfehlungssysteme: Ansätze und Methoden......................................................... 13 2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen................................. 13 2.2 Quellen für Empfehlungssysteme.........................................................................14 2.3 Personalisierte und allgemeine Empfehlungen ....................................................15 2.4 Inhaltsbasiertes Filtern......................................................................................... 15 2.5 Kollaboratves Filtern............................................................................................22 2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen..................25 2.7 Ähnlichkeit und weitere Kriterien.........................................................................28 2.8 Nachteile und Herausforderungen der Ansätze ...................................................28 2.9 Hybride Lösungen.................................................................................................30 3 Empfehlungssysteme: Ausgewählte Einsatzgebiete.................................................. 35 3.1 Überblick über fünf ausgewählte Einsatzgebiete..................................................35 3.2 Experten- und Arbeitsplatzsuche im Web............................................................ 36 3.3 Partnersuche im Web........................................................................................... 39 3.4 Produktempfehlungen .........................................................................................42 3.5 Empfehlungssysteme für Web-Materialien.......................................................... 51 3.6 Spezielle Einsatzgebiete und weitere Empfehlungssysteme................................. 58 4 Entwicklung von Empfehlungssystemen...................................................................67 4.1 Entwicklung im Überblick..................................................................................... 67 4.2 Aktve Einbindung von Nutzern............................................................................ 67 4.3 Ziel und Zweck des Empfehlungssystem...............................................................68 4.4 Konzeptonelle Beschreibung............................................................................... 68 4.5 Implementerung ................................................................................................69 4.6 Evaluaton: Überprüfung der Qualität und Nützlichkeit von Empfehlungen.........70 5 Ausblick....................................................................................................................73 Literatur und Quellen.................................................................................................. 75 Autorinnen und Autoren............................................................................................. 80 Social Media – Weitere Bände.....................................................................................80
  • 8.
  • 9. 1 EINLEITUNG UND HINTERGRUND 1.1 Empfehlungen im Web Wachsende Datenbestände machen es schwierig sich zu orienteren. Empfehlungssyste- me werden daher immer häufger eingesetzt. Sie schlagen zum Beispiel Produkte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musikgruppen oder poten- zielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssysteme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Auch bei der gezielten und personalisierten Werbung im Web oder bei Suchmaschinen werden Verfahren der Empfehlungssysteme eingesetzt. Empfehlungen unterstützen auch Prozesse wie die Reiseplanung, das Lernen, das Tagging und auch das Verschreiben von Arzneimiteln. Empfehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter einem Empfehlungssystem ein System, „das einem Benutzer in einem gegebenen Kon- text aus einer gegebenen Enttätsmenge aktv eine Teilmenge „nützlicher“ Elemente empfehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufg als „Recom- mender-Systeme“ bezeichnet. Als Voraussetzung für die Notwendigkeit von Empfehlungssystemen betrachtet Klahold (2009) das Anwachsen von Informatonen und den exponentellen Ansteg des Datenvo- lumens im 20. Jahrhundert (S. 16). Auch wenn es nicht als Empfehlungssystem bezeich- net wird, ist Klahold (2009) zufolge, die erste akademische Beschäfigung mit einem Empfehlungssystem das Werk von Luhn (1958): Er beschreibt ein System, dass selektv Informatonen an bestmmte Organisatonen verteilt. Ein Überblick über aktuelle Realisierungen und Erfahrungen mit solchen Empfehlungs- systemen, die als Service für Nutzer und Communitys einen entscheidenden Faktor für die Atraktvität eines Systems ausmachen können, wird hier gegeben, wobei auch die konkrete technologische Umsetzung und die Konzepte beschrieben werden. Während sich der Begrif der „Empfehlungssysteme“ in einigen Beiträgen nur auf automatsche Verfahren der Empfehlung beschränkt, beziehen wir in dieser Arbeit alle Formen der Empfehlungen mit ein. Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgenden Verfahren oder eine Kombinaton von beiden genutzt: | Beim inhaltsbasierten Filtern (Engl. „Content Based Filtering“) beruhen die Empfeh- lungen auf den Eigenschafen der Elemente, die empfohlen werden. Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerpro- fls ergeben hat, dass es ihn interessieren könnte (Klahold, 2009). | Beim kollaboratven Filtern (Engl. „Collaboratve Filtering“) werden Empfehlungen auf der Basis von Daten zu ähnlichen Benutzerproflen gegeben. Beispielsweise wer- den hier Bücher empfohlen, die andere Nutzer mit ähnlichem Benutzerprofl bereits gekauf, gelesen oder positv bewertet haben (Klahold, 2009). Ein weiteres wichtges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob per- sonalisierte Empfehlungen gegeben werden oder ob die Empfehlung für jeden Nutzer gleichermaßen gilt. Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönliche) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005). 9
  • 10. 1.2 Schwerpunkte, Forschungsfragen und Vorgehen Schwerpunkte unserer Ausführungen sind die unterschiedlichen Formen und Einsatz- möglichkeiten von Empfehlungssystemen im Web. Folgende, eher praktsche Fragen waren dabei forschungsleitend: | Welche Arten von Empfehlungssystemen im Web gibt es derzeit? | Wie und zu welchem Zweck werden sie eingesetzt? | Welche Erfahrungen wurden dabei bisher gemacht? Diese Publikaton verfolgt das Ziel, über unterschiedliche Branchen und Anwendungsbe- reiche hinweg, Realisierungsmöglichkeiten und Beispiele vorzustellen. Dabei wird be- trachtet, welchen Nutzen einzelne Benutzer eines Services oder einzelne Community- Mitglieder haben und wie ggf. die Nutzergruppe insgesamt davon proftert. Im Überblick beschäfigt sich die Studie also mit: | Motven für den Einsatz von Empfehlungssystemen, | unterschiedlichen Ansätze und technologischen Grundlagen, | Realisierungen für unterschiedliche Einsatzbereiche, | Hinweisen zur Entwicklung solcher Systeme sowie | Herausforderungen und zukünfigen Forschungsfragen. Ein gewisses technisches Grundverständnis voraussetzend, wendet sich diese Studie vor allem an Praktker, die sich durch die unterschiedlichen Nutzungsmöglichkeiten anregen lassen wollen, für ihre eigenen Webplatormen innovatve Empfehlungsservices zu ent- wickeln. Hierfür wurden Beispiele, Publikatonen und Experten einbezogen, um einen guten Einsteg und Überblick zum aktuellen Stand der Nutzung sowie anregende Einbli- cke ermöglichen zu können. Beim Entwurf des Projektes und der Forschungsschwerpunkte gab es keine deutschspra- chige umfangreichere Einführung in Empfehlungssysteme. Während der Recherchen er- schien jedoch ein neues Buch: Klahold (2009) führt in die unterschiedlichen Empfeh- lungssysteme, ihre Struktur und verwendete Technologien und Methoden systematsch für Studierende der Informatk ein. Diese Broschüre hat hingegen eher die unterschiedli- chen Einsatzgebiete und Erfahrungen sowie die Entwicklung von Empfehlungssystemen für Gestalter und Verantwortliche von Webplatormen im Fokus. Auf alle Fälle beein- fusste und inspirierte uns das Buch von Klahold (2009); häufg wird daher auf diese Quelle verwiesen. 1.3 Hintergrund Diese Broschüre ist ein Ergebnis der „ComStudy“, die am Salzburg NewMediaLab (SNML) im Zeitraum von Oktober 2008 bis Januar 2010 durchgeführt wurde. Das SNML, das Kompetenzzentrum für Neue Medien in Österreich, arbeitet daran, digitale Inhalte cle- ver zu strukturieren, verknüpfen, personalisieren, für alle aufndbar zu machen und nachhaltg zu nutzen und betrachtet dabei die Community als einen wesentlichen Faktor vieler Projekte. Im Rahmen der ComStudy wurde bereits eine Studie zum erfolgreichen Community- Aufau durchgeführt, die anhand von Literaturanalysen, Best-Practce-Beispielen, Fall- analysen und Expertenbefragungen für unterschiedliche Szenarien konkrete Implemen- terungsempfehlungen gibt (Schafert & Wieden-Bischof, 2009). In einer weiteren Bro- schüre wurde die Entstehung und Nutzung von (Meta-) Informatonen in Communitys 10
  • 11. beschrieben. Unterschiedliche Einsatzgebiete und Nutzungen, von der Entwicklung von Services für die Communitys selbst bis zum unternehmensgetriebenen Webmonitoring werden dabei beschrieben (Schafert u.a., 2009). Auf diesen Vorarbeiten beruht im Rah- men des Projektes zudem eine Studie zu Feedback- und Reputatonssystemen (Schafert u.a., 2010). Auch dieser Band basiert darauf, da bei der Entwicklung von Empfehlungssystemen auf (Meta-) Informatonen unterschiedlichster Art zurückgegrifen werden kann (s. letzte Seite in diesem Band). 11
  • 12. 12
  • 13. 2 EMPFEHLUNGSSYSTEME: ANSÄTZE UND METHODEN In diesem Abschnit werden die unterschiedlichen Ansätze und Methoden von Empfeh- lungssystemen vorgestellt. Dazu werden zunächst Ziele und Zwecke ihres Einsatzes und ihre Quellen vorgestellt. Im Anschluss wir ein Einsteg in die unterschiedlichen Verfahren des inhaltsbasierten als auch kollaboratven Filtern und hybrider Ansätze geboten. Leider nutzen einige Forscher unterschiedliche Bezeichnungen für die gleichen Verfah- ren von Empfehlungssystemen, während andere identsche Bezeichnungen verwenden, aber ofensichtlich unterschiedliches verstehen (Schickel-Zuber, 2007, 21). Im Folgenden wurde Aufau und Bezeichnungen der Verfahren aus aktuelleren Veröfentlichungen ge- wählt und beschrieben (u.a. Schickel-Zuber, 2007; Klahold, 2009). 2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen Einleitend wurde festgestellt, dass Empfehlungssysteme die Aufgabe haben, Nutzern von Anwendungen Objekte vorzuschlagen, die für sie interessant sein können. Doch welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssys- tem enthält? Unmitelbare Zwecke, die Empfehlungssysteme erfüllen sollen sind, dass | Nutzer für sie interessante, neuartge und nützliche Empfehlungen für Experten, Pro- dukte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhal- ten, und/oder | dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden. Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen verfolgen, können dabei sein: | mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen, | zufriedenere Nutzer zu erhalten, | sich durch besseren Service von Mitbewerbern zu unterscheiden sowie | höhere Umsätze und/oder Gewinne zu sichern. Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöhte Um- sätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäf bei Amazon oder iTunes Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten. Diese gilt es aber zu fnden, daher sind Empfehlungssysteme unabdingbar (vgl. Klahold, 2009). Strategische Ziele, die damit verfolgt werden können sind zum Beispiel: die Nutzer an den eigenen Service zu binden, sie zu aktvieren und/oder ein Alleinstellungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitg, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungssysteme eingeführt werden können, ermöglichen Empfehlungssysteme auch leichteres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können Betreiber, beispielsweise in Handelsplatormen Auswirkungen der Empfehlungen von Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über gute Produktplatzierung und Werbung gewinnen. 13
  • 14. 2.2 Quellen für Empfehlungssysteme Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Informato- nen über Nutzer sowie den Empfehlungselementen zur Verfügung. Beispielsweise sind dies (s. Schafert u.a. 2009, 10): | das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten, | die Kommunikatons- und Netzwerkstruktur als Möglichkeit die sozialen Gegebenhei- ten zu erfassen und zu nutzen, | Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Web- seiten zu evaluieren und zu beurteilen, | Social Tagging als eine innovatve und populäre Variante von gemeinschaflicher Ver- schlagwortung von Dokumenten, | Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Metainfor- matonen analysiert und abgeleitet werden können, | Metadatenformate als klassische Form von Metainformatonen sowie schließlich | verknüpfe Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data). Bei Empfehlungssystemen wird darüberhinaus auch damit experimentert, beispielswei- se Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfehlungen zu verbes- sern (Nunes & Blanc, 2008). Die unterschiedlichen Quellen werden in explizite Empfehlungen, d.h. Empfehlungen durch Bewertungen von Nutzern, sowie verhaltensbasierte Empfehlungen durch sonst- ge Aktvitäten der Nutzer unterschieden. Nach Neumann (2009) sind mit der Nutzung dieser unterschiedlichen Quellen auch unterschiedliche Herausforderungen verbunden. Nutzer Designprobleme der Mechanismen Nutzertyp Verhalten Explizite Empfehlungen Verhaltensbasierte Empfehlungen unvoreingenommen passiv passiver Konsum Free-Rider-Efekt, – Netzwerkefekte unvoreingenommen aktv wahrheitsgemäßer Beitrag Privatsphäre (Privatsphäre) voreingenommen, aktv voreingenommener Beitrag Voreingenommenheit, (Voreingenommenheit) Feedback-Efekte Glaubwürdigkeit Tabelle 1: Nutzertypen und Designprobleme von Empfehlungssystemen mit expliziten vs. verhaltensbasierten Empfehlungen Quelle: Neumann, 2009, Tabelle 3.1, 28 Prinzipiell sind bei beiden Verfahren v.a. Voreingenommenheit und Parteilichkeit bei Nutzern eine Herausforderung, insbesondere wenn bewusst und intensiv zugunsten oder gegen Produkte bewertet wird. Parteiische Nutzer können auch Feedback-Efekte hervorrufen, d.h. dass ein frühzeitges positves Feedback zu größeren Marktchancen von Produkten führt, ein frühes negatves Feedback jedoch die Chancen für spätere Ver- besserungen der Bewertungen und Absatzchancen stark einschränkt. Empfehlungen sind auch gewissermaßen ein öfentliches Gut, von dem jeder profteren kann. Dies gilt im besonderen Maße für Nutzer, die nur von den Bewertungen anderer 14
  • 15. profteren, aber nicht selbst daran mitwirken („Free-Rider-Efekt“). Wünschenswert ist allerdings, dass alle Nutzer mitwirken und Netzwerkefekte entstehen können. 2.3 Personalisierte und allgemeine Empfehlungen Als erstes Unterscheidungsmerkmal der unterschiedlichen Verfahren wird häufg ausge- wählt, ob das System personalisierte, d.h. auf einen Nutzer zugeschnite, Empfehlungen gibt. Insbesondere Bewertungsplatormen wie die Nachrichtensammlung Digg1 geben auf der Startseite keine personalisierten Empfehlungen ab, sondern aggregieren aus den Bewertungen der Digg-Nutzer Empfehlungen von Nachrichten, die für alle Besucher der Seite gelten. Registrierte Nutzer bekommen jedoch auch ihr Profl zugeschnitene Emp- fehlungen (s. Abbildung 1). Ebenso keine personalisierten Empfehlungen in diesem Sinne geben beispielsweise Sys- teme, die zu einzelnen Produkten oder Webseiten weiterführende oder ähnliche Pro- dukte und Webseiten anbieten, wenn diese Empfehlungen nicht aufgrund des Nutzer- profls gegeben werden, sondern bei jedem Nutzer gleichermaßen angezeigt werden. Abbildung 1: Allgemeine Nachrichtenempfehlungen und die personalisierte Empfehlungsmaschine bei Digg Quelle: htp://digg.com (02/2010) Als registrierter Nutzer erhält man bei Digg jedoch personalisierte Empfehlungen für Ar- tkel: Vorgeschlagen werden Beiträge, die Nutzer mit einem ähnlichen Profl gut fnden. Personalisierte Empfehlungssysteme können auch die Nutzer-History berücksichtgen und (auch ohne Berücksichtgung anderer Nutzerprofle) Empfehlungen geben (Tanaka, Hori & Yamamoto 2008). Im Folgenden stellen wir die zwei grundsätzlich unterschiedliche Verfahren vor, die bei Empfehlungssystemen eingesetzt werden: das inhaltsbasierte sowie das kollaboratve Filtern. 2.4 Inhaltsbasiertes Filtern Das inhaltsbasierte Filtern hängt stark von den Objekten ab, die empfohlen werden sol- len: Bücher, Videos, Fotos, Musikdateien und andere Produkte sind dabei unterschied- lich beschrieben und nutzen auch unterschiedliche Metadatenformate. Die Eigenschaf- ten der Objekte sind die Basis für die Empfehlungen. Was andere Nutzer machen, spielt also keine Rolle. Folgende Abbildung gibt einen Überblick über die Prozesse beim in- haltsbasierten Filtern, die wir im Folgenden genauer vorstellen. 1 htp://digg.com, Stand 02/2010 15
  • 16. Abbildung 2: Überblick über das Vorgehen bei inhaltsbasierten Empfehlungen Quelle: Nutzung von Abbildungen von Artkeln der folgenden Zeitschrifen: Oberbadisches Volksblat, Ahlener Zeitung, Rheinische Zeitung, Kleine Zeitung Eigenschafsanalyse Die Datenbasis des Systems kann beim inhaltsbasierten Filtern grundsätzlich unter- schiedlich erlangt werden: | Die Elemente können mit Hilfe von Experten beschrieben werden. Insbesondere Ler- nempfehlungen in Lernumgebungen werden aufgrund von Angaben von Experten, i.d.R. der Lehrenden gegeben. Dazu werden beispielsweise im Lernmanagementsys- tem Angaben zum Aufau der Lerneinheiten gemacht, welches Modul beispielsweise welchem Modul folgt bzw. folgen sollte. Eine Reihe von weiteren Empfehlungssyste- men verwenden Metadaten von Objekten, ohne dass spezifsche weitere Auswertun- gen vorgenommen werden: So können Bücher von gleichen Autoren empfohlen wer- den oder Bücher, die in der gleichen Rubrik veröfentlicht wurden. | Davon unterscheiden sich Empfehlungssysteme, die zu empfehlende Objekte bzw. deren Nutzer erst weiteren Auswertungen und Analysen unterziehen, um entspre- chende Daten zu erhalten. Viele Empfehlungssysteme greifen nicht auf explizite Ele- mentbeschreibungen wie z. B. Metadaten zurück. Of sind Eigenschafen der Empfehlungselemente eben noch nicht bekannt oder be- schrieben, sondern müssen erst analysiert werden (in der Abbildung 2 mit „a“ gekenn- zeichnet). 16
  • 17. Auch für andere Formate wie Videos, Audios und Bilder gibt es Verfahren der automat- schen Analyse. Erprobter und sehr häufg im Einsatz sind bei Empfehlungssystemen je- doch vor allem Eigenschafsanalysen von Texten. Auf diesen Bereich gehen wir daher im Folgenden besonders ein. Eigenschafsanalyse am Beispiel von Texten Besonders bei Texten müssen deren Besonderheiten erst vom Empfehlungssystem fest- gestellt werden. Die Verfahren zur Analyse von Eigenschafen von Texten heißt „Feature Selecton“ bzw. eben Eigenschafsanalyse (vgl. Klahold, 2009, 42). Dazu gibt es eine Rei- he von Verfahren, die diese Analyse ermöglichen. Bei Texten ist es wichtg, die Schlüssel- worte (bzw. Stchworte) zu erhalten, die zentrale Bedeutung für den Text haben (siehe Klahold, 2009, 42f). Dabei kommen Verfahren der Informaton Extracton (auf Deutsch „Informatonsgewinnung“), zum Einsatz, also semantsche wie statstsche Verfahren (s. Knoth, Schmidt & Smrž, 2008). Nicht zuletzt durch Empfehlungssysteme ist die Nachfra- ge und Zitatonshäufgkeit von einschlägigen Werken wie „Informaton to modern infor- maton retrieval“ von Salton und McGill (1986) oder „Informaton Retrieval von van Rijs- bergen (1979) immer noch hoch (s. Heymann, 2004). Im Folgenden zeigen wir ein typisches Verfahren am Beispiel von vier Ausschniten aus Liedtexten. Hier werden zunächst Wörter, die in der deutschen Sprache sehr häufg sind und keinen Mehrwert für die Diferenzierung von Texten haben, gestrichen und nicht weiter ausgewertet. In solchen „Stopplisten“ stehen typischerweise Worte wie „auch“, „als“, „an“, „keine“, „kann“, „sind“, „oder“ sowie „und“. In der folgenden Tabelle wird ge- zeigt, welche Wortlisten sich aus drei Beispielsätzen ergeben, wenn Stopplistenwörter gestrichen werden, Wiederholungen gelöscht sowie Wörter auf ihre Grundformen zu- rückgeführt werden. Originalsatz (Liedtexte) Nach Streichung der Stoppwörter Text A „Wir tanzen Tango und möglichst lang. Es spielt sich eng wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng bei dem Gedräng.“ Text B „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, eins, zwei, Eins, zwei, drei, vier, beide Hände reich ich dir.“ drei, vier, beide, Hände, reich, ich, dir Text C „Oh, Donna Clara, ich hab dich tanzen gesehn, und deine oh, Donna, Clara, ich, tanzen, gesehn, deine, Schönheit, Schönheit hat mich toll gemacht.“ mich, toll, gemacht Text D „Komm, tanz den Tango mit mir! Und folge mir im Tango- komm, tanz, Tango, mir, folge, mir, Tangoschrit, hier, ich, schrit hier! Ich tanz den Tanz ganz lange mit dir.“ tanz, Tanz, ganz, lange, dir Tabelle 2: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten. Quelle: Textauszüge von Nina Hagen, Volksgut, Comedian Harmonists und Bodo Wartke Folgende Verfahren zur Textanalyse werden in der Praxis häufg eingesetzt: | Das Verfahren „Term Frequency – Inverse Document Frequency“ (kurz TF/IDF) ist ein statstsches Verfahren: Es zählt alle Wörter im Text. Wörter, die dabei in allen Texten (im gesamten Korpus) vorkommen, erhalten ein geringes Gewicht. Wörter, die nur in wenigen Texten vorkommen, erhalten ein größeres Gewicht und werden zur Be- schreibung eines Textes bedeutsamer eingeschätzt. Dabei werden in aller Regel auch Stemming- bzw. Lemmatsierungs-Verfahren eingesetzt, d.h. Worte werden auf ihre Stammformen gebracht, um beispielsweise unterschiedliche Beugungsformen kor- rekt zu zählen. 17
  • 18. | Der Ansatz der „Mutual Informaton“ berechnet die Wahrscheinlichkeit, dass zwei Worte gemeinsam in einem Text vorkommen. Durch den Vergleich der Wahrschein- lichkeit des gemeinsamen Aufretens mit der des unabhängigen Aufretens der Wort- paare wird ein Ähnlichkeitsmaß von Texten berechenbar. Diese Ansätze wurden vielfältg präzisiert und weiterentwickelt, beispielsweise sind das „Okapi Weightng Scheme“ und das Okapi-BM2-Verfahren Weiterentwicklungen des TF/IDF-Verfahrens (s. Cummins & O’Riordan, 2006). Ein weiteres patentertes Verfahren ist das Latent Semantc Indexing. Marco Kalz beschreibt es im Expertengespräch (s. S. 65). Bei solchen statstschen Verfahren werden v.a. Wörter gezählt und seltener semant- sche Bezüge ausgewertet. Verwandte Wörter bzw. die Wortbedeutungen zu berücksich- tgen wird v.a. durch Einbezug von Thesauri, Synonym-Lexika und Wörterbüchern mög- lich. Bei mehrdeutgen Wörtern wie „Bank“ können beispielsweise über die assoziierten Wörter weitere Zuordnungen vorgenommen werden. Trit das Wort „Bank“ beispiels- weise im Zusammenhang mit „Kredit“, „Überweisung“ auf, passt dieser Beitrag wohl eher zu einem Artkel mit Beiträgen zu Geldinsttuten als zu anderen Beiträgen zur Sitz- gelegenheit „Bank“ (siehe ausführlich bei Klahold, 2009, 48). Ein Verfahren, das ebenso Wortbedeutungen auswertet ist der Ansatz der „Named Entty Recogniton“: Hier wer- den sogenannte „Enttätstypen“ durch die Stellung im Satz identfziert. Beispielsweise können das Personen, Firmen oder Orte sein, die aufgrund der Stellung im Satz, der Häufgkeit oder auch durch Abgleich mit Listen als Personennamen, Firmennamen oder Ortsnamen identfziert werden. Für Empfehlungssysteme wurden eigene Heuristken dafür entwickelt, welche Wörter wichtg sind bzw. den Inhalt des analysierten Textes widerspiegeln. Für ein Empfehlungs- system von Webseiten, dem InfoFinder, wurde beispielsweise folgende Heuristk einge- setzt (Krulwosh & Burkey, 1997; Übersetzung in Klahold, 2009, 112): | Worte, die in einer Stoppwortliste, stehen sind grundsätzlich unwichtg, | komplet groß geschriebene Worte sind wichtg (Vermutung, es handelt sich um ein Akronym), | in Klammern oder Anführungszeichen stehende Worte nach einem komplet groß ge- schriebenen Wort sind wichtg (Vermutung, es handelt sich dabei um eine Defniton eines Akronyms), | anders formaterte Wortolgen von zwei bis drei Worten, die kein eigenständiger Satz sind, sind wichtg (Vermutung, es handelt sich um die erstmalige Verwendung eines wichtgen Wortes), | Worte in Aufzählungen, Überschrifen, Bildunterschrifen, Tabellenspalten und -zei- len sind wichtg, | ofmals wiederholte Wortolgen sind wichtg, | Substantve in direkter Folge sind wichtg (Vermutung, es handelt sich um einen Fachbegrif), | Worte, die Sonderzeichen (beispielsweise einen Bindestrich), Zifern oder Großbuch- staben enthalten, sind wichtg. 18
  • 19. Darstellung und Speicherung der Eigenschafen Eine einfache Darstellung von Eigenschafen eines Textes ist die einfache unstrukturierte Sammlung der Schlüsselworte („Bag of Words“, Klahold, 2009, 58). In der Regel werden die Eigenschafen in Form von Vektoren dargestellt (s. Klahold, 2009, 56f; Abbildung 2 mit „b“ gekennzeichnet). Texte werden dabei i.d.R. mit Vektoren repräsentert, die so viele Komponenten haben, wie der Korpus Worte besitzt. Anhand der Ähnlichkeit von Vektoren wird auf die Ähnlichkeit der analysierten Texte geschlossen (s. Abschnit 2.6, S. 25) Am obigen Beispiel der Liedtexte dargestellt (s. Tabelle 2, S. 17), können Vektoren bei- spielsweise folgendermaßen aussehen: Schlüsselworte Vektoraufau: wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng, Zahl der eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, beide, Hände, reich, ich, Schlüssel- dir, oh, Donna, Clara, gesehn, deine, Schönheit, mich, toll, gemacht, folge, worte ohne Tangoschrit, hier, Tanz, ganz Wiederho- lungen Text A wir, tanzen, Tango, mög- VRA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 8 lichst, lange, spielt, eng, VBA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) Gedräng Text B eins, zwei, drei, vier, Brü- VRB=(0,0,0,0,0,0,0,0,2,2,2,2,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 14 derchen, komm, tanz, mir, VBB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) eins, zwei, drei, vier, beide, Hände, reich, ich, dir Text C oh, Donna, Clara, ich, tan- VRC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 11 zen, gesehn, deine, Schön- VBC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) heit, mich, toll, gemacht Text D komm, tanz, Tango, mir, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,2,2,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) 12 folge, mir, Tangoschrit, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) hier, ich, tanz, Tanz, ganz, lange, dir Tabelle 3: Darstellung der Schlüsselworte in Vektoren mit reellen und binären Komponenten In der Darstellung wird die Zahl der entsprechenden Worte im Vektor dargestellt. Mög- lich ist auch eine binäre Darstellung, bei der „1“ für „vorhanden“ und „0“ für „nicht vor- handen“ steht. Vektoren mit mehr als drei Dimensionen lassen sich dabei kaum bildlich vorstellen. In der Darstellung wird die Zahl der entsprechenden Worte im Vektor darge- stellt. Schon beim Betrachten der Vektoren kann man sich vorstellen, welche Vektoren ähnlich sind. Vergleich der Empfehlungselemente Sind die Eigenschafen von Empfehlungselementen analysiert bzw. bekannt, wird beim inhaltsbasierten Filtern ein Vergleich zwischen den Empfehlungselementen vorgenom- men. Dazu stehen wiederum unterschiedliche Verfahren bzw. Algorithmen zur Verfü- gung (in der Abbildung c). Typischerweise wird die Ähnlichkeit von Elementen als nütz- lich empfunden, um darauf aufauend Empfehlungen auszusprechen. Wir stellen ausge- wählte Verfahren in Abschnit 2.6 vor (s. S. 25). 19
  • 20. Bei der Entscheidung für ein oder mehrere Verfahren bzw. einen Algorithmus ist es wichtg, dass die Ergebnisse in einer angemessenen Zeit zur Verfügung stehen: „Um die Laufzeitkomplexität zu reduzieren muss die Eigenschafsanalyse ein möglichst gutes Ver- hältnis zwischen der Menge der Eigenschafen und der dadurch gegebenen diskriminie- renden Wirkung bezüglich der Empfehlungselemente erzielen“ (Klahold, 2009, 42). Fallbezogenes und eigenschafsbezogenes Filtern Es können zwei Arten des inhaltsbasierten Filterns unterschieden werden. Zum einen werden beim eigenschafsbezogenen Filtern (Engl. „atributon based“) Emp- fehlungen aufgrund der Übereinstmmungen des Profls der Nutzer (z. B. seinen Qualif- katonen) mit den Elementen (z. B. Stellenanzeigen) gegeben (siehe Abbildung 3, rechts). Zum anderen werden beim fallbezogenen Verfahren (Engl. „case based“) personalisierte Empfehlungen auf Basis der Ähnlichkeiten von Elementen gegeben (siehe Abbildung 3, links): Hat jemand z. B. einen Text zu Delphinen hoch bewertet, so wird er weitere Texte zu diesem Thema vorgeschlagen bekommen. Abbildung 3: Inhaltsbasiertes Filtern: eigenschafsbezogenes (links) und fallbezogenes Filtern (rechts) Quelle: Darstellung in Anlehnung an Kim, 2006, abgebildet in Drachsler, 2009 20
  • 21. Beispiele für Empfehlungssysteme mit inhaltsbasiertem Filtern Ausgewählte Beispiele für Empfehlungssysteme, die auf inhaltsbasiertem Filtern beru- hen, werden in Klahold (2009, 102f) vorgestellt und hier zusammengefasst. Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur lungsele- ment Informaton E-Mail E-Mails erhalten Manuelle Ergänzung Manuelle Erstel- Regelbasiert Malone, Grant, Lense Metadaten (Ort, der Metadaten lung des Interes- (einfache Über- Turbak (1986) Produkt etc.) sensprofls durch einstmmung) Nutzer Infoscope Usenet- Vorhandene Filterre- Heuristk, manuelle Manuelle Pfege regelbasiert Fischer & Ste- Nachrichten geln für eine „virtu- Metadaten, Text- vens (1991) elle“ Newsgroup struktur, NLP, Basis- werden bewertet korpus-Statstk, TF- IDF-Derivat Letzia Webseiten Webseiten (Subsei- TF-IDF-Derivat Manuelle Pfege Cosinus-Ähn- Liebermann ten oder Links) wer- (Schlüsselworte) lichkeitsmaß (1995) den empfohlen WebWatcher Webseiten Hyperlinks auf Web- TF-IDF-Derivat Manuelle Pfege Mutual Infor- Armstrong, Frei- seiten und neue (Interessensspezif- maton tag, Joachims & Webseiten werden katon) Mitchell (1995) empfohlen u.a. Syskill & We- Webseiten Webseiten werden TF-IDF-Derivat Auf Basis von Be- Naiver-Bayes- Pazanni, mUra- bert empfohlen wertungen des Klassifkator matsu & Billsus Nutzers von Web- (1996) seiten (Schlüssel- worte) InfoFinder Webseiten Webseiten werden Heuristk Auf Basis von Be- ID3-Algorithmus Krulwosh & Bur- empfohlen wertungen des key (1997) Nutzers (Smiley anklicken) LIBRA Bücher Bücherempfehlun- Manuelle Metada- Auf Basis von Naiver-Bayes- Mooney & Roy gen ten Buchbewertungen Klassifkator (2000) des Nutzers Tabelle 4: Übersicht über ausgewählte Empfehlungssysteme, die inhaltsbasiertes Filtern verwenden. Quelle: Klahold, 2009, 102f Die hier genannten Verfahren zur Distanzermitlung werden in Abschnit 2.6 (S.25) be- schrieben. 21
  • 22. 2.5 Kollaboratves Filtern Beim kollaboratven Filtern werden Empfehlungen aufgrund anderer ähnlicher Benutzer- profle gegeben (Klahold, 2009, 62f). Folgende Abbildung gibt einen Überblick über das Verfahren, dass wir im Folgenden detaillierter beschreiben. Abbildung 4: Überblick des Vorgehens beim kollaboratven Filtern Implizite und explizite Bewertungen Grundlage für das kollaboratve Filtern sind die Bewertungen von Nutzern (siehe Abbil- dung 4 mit „a“ gekennzeichnet). Diese können implizit durch Auswertung des Nutzerver- haltens generiert werden, zum Beispiel kann vermerkt werden, welche Elemente an- geklickt und/oder länger betrachtet wurden oder was gekauf wurde. So wird bei WAIR, einem Empfehlungssystem für Webseiten, die Bewertung einer Webseiten nicht explizit durch den Nutzer erbeten: Bewertungen von Webseiten werden hier aus dem Nutzer- verhalten abgeleitet beispielsweise der Lesedauer, Setzen von Lesezeichen, Scrollen, Be- nutzen von Hyperlinks (in der Webseite; s. Seo & Zang, 2000; Klahold, 2009, 133f). Häu- fg werden jedoch auch explizite Bewertungen der Nutzer erbeten, beispielsweise auf ei- ner Skala mit fünf Sternen. Unterschiedliche Verfahren kollaboratven Filterns Mit Hilfe dieser Daten wird nun berechnet, wie relevant ein Empfehlungselement für einen Nutzer ist. Dazu gibt es beim kollaboratven Filtern wiederum mindestens vier An- sätze zu unterscheiden (in der Abbildung 4 mit „b“ gekennzeichnet, Klahold, 2009, 62f; Kim, 2006; Drachsler, 2009 u.a.). 22
  • 23. Abbildung 5: Nutzer- und elementbasiertes kollaboratves Filtern Quelle: Darstellung in Anlehnung an Kim, 2006; abgebildet in Drachsler, 2009 (i) Beim nutzerbezogenen Algorithmus wird festgestellt, welche Nutzer besonders ähn- lich sind und deren Bewertungen eines Empfehlungselement als Relevanzmaß festge- legt: Was ähnliche Nutzer als gut befnden, erhält eine hohe Relevanz und wird dem Nutzer empfohlen (in der Abbildung 5 links). (ii) Beim elementbezogenen Algorithmus werden eigene, als gut bewertete Elemente ge- nommen und dann wird paarweise nach Elementen gesucht, die ebenso gut bewertet werden. Die Relevanz berechnet sich beispielsweise in Form eines „gewichteten Durch- schnits der Bewertungen des Benutzers für die (..) ähnlichsten Empfehlungselemente“ (Klahold, 2009, 65, in der Abbildung 5 rechts). Abbildung 6: Modell- bzw. speicherbasiertes Verfahren beim kollaboratven Filtern (iii) Beim modell- bzw. speicherbasierten Verfahren werden alle Benutzerdaten und das Benutzerverhalten in den Filterprozess eingebunden. Dabei kommen multvariate Ver- fahren zum Einsatz, die am Ende von Abschnit 2.6 (S. 25) beschrieben werden, bei- spielsweise K-Means-Clustering. (iv) Wenn die Zuordnung nicht aufgrund solcher Verfahren, sondern auf Basis einfacher Angaben wie beispielsweise Alter und Geschlecht erfolgt, werden darauf beruhende Empfehlungen für Elemente, die Gleichaltrige und Gleichgeschlechtliche als stereotypes bzw. demographisches kollaboratves Filtern bezeichnet (siehe z. B. Drachsler, 2009, 57). 23
  • 24. Beispiele von Empfehlungssystemen für kollaboratves Filtern Ausgewählte Beispiele für Empfehlungssysteme, die auf kollaboratven Filtern beruhen, werden in Klahold (2009) vorgestellt und hier zusammengefasst. Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur lungsele- ment Tapestry E-Mails Anzeige von E-Mails, Relevanzbewertung Manuelle Pfege regelbasiert Goldberg u.a. die von anderen durch Nutzer (muss Nutzer aus- (1992) Nutzern als relevant wählen, dessen eingestuf werden Einschätzungen man nutzen will) Ringo Musik Vorschläge für Inter- Bewertungen durch Bewertung von Regelbasiert Shardanand & preten und Alben Nutzer Musikstücken (benutzerbezo- Maes (1995) gener Korrelat- onskoefzient) Group Lense Usenet- In Newsgroup-Rea- Bewertungen auf ei- Bewertung von Pearson Korre- Resnick u.a. Nachrichten dern werden Nach- ner Skala von 1-5 Usenet-Nachrich- latonskoefzi- (1994) richten gekennzeich- ten ent net Siteseer Bookmark- Browser-Bookmark- Manuelle Metada- Bookmarks und Nearest-Neig- Rucker & Polanco Empfehlun- vergleich ten und Bookmarks ihre Gruppierun- bours-Verfahren (1997) gen gen Jester (Eigen- Witze Witzempfehlungen Bewertung auf Initale Bewertung Nearest-Neig- Goldberg u.a. taste) 200er-Skala ausgewählter Wit- bours-Verfahren (2000) ze auf 200er-Skala, Zuordnung in Be- nutzergruppen (Clusteranalyse, 40 Gruppen) Amazon Bücher Bücherempfehlun- Kaufverhalten (ele- Weitere Empfeh- Kosinus-Ähn- Linden, Smith & gen „Käufer dieses mentbasiertes kolla- lungen zu aktuell lichkeitsmaß York (2003) Buches kaufen boratves Filtern) aufgerufenen Bü- zwischen Buch- auch...“ chern vektoren SurfLen Webseiten Empfehlungen im Webseitenaufrufe Weitere Empfeh- Heuristk Fu, Budzik & Browser-Plugin (elementbasiertes lungen zu aktuell Hammond (2000) kollaboratves Fil- aufgerufenen Web- tern) seiten Tabelle 5: Übersicht über ausgewählte Empfehlungssysteme die kollaboratves Filtern verwenden. Quelle: Klahold, 2009, 87f In dieser Übersicht werden, wie auch schon beim inhaltsbasierten Filtern, Verfahren der Ähnlichkeitsfeststellung genannt, auf die wir im Folgenden eingehen werden. 24
  • 25. 2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen Beim inhaltsbasierten wie beim kollaboratven Filtern wird in aller Regel versucht, ähnli- che Nutzer bzw. ähnliche Elemente zu identfzieren: Es werden entweder ähnliche Nut- zerprofle oder auch ähnliche Elemente gesucht, um daraus Empfehlungen abzuleiten. Dazu kommen beim inhaltsbasierten und kollaboratven Filtern die gleichen Methoden zum Einsatz. Einige davon beschreiben wir im Folgenden kurz: Zum einen kommen dabei Verfahren, die Distanzen zwischen bzw. Ähnlichkeiten von Vektoren berechnen zum Ein- satz, denn wie oben dargestellt sind Vektoren die übliche Darstellung von Eigen- schafsproflen. Zum anderen werden Verfahren eingesetzt, die versuchen, Empfeh- lungselemente oder auch Nutzergruppen zuzuordnen. Distanzen und Ähnlichkeitsmaße von Vektoren Wenn es darum geht, „ähnliche“ Elemente zu empfehlen, müssen Aussagen über die Ähnlichkeiten von (allen) Elementen eines Korpus von möglichen Empfehlungselemen- ten vorliegen. Es gibt eine Vielzahl von Möglichkeiten, Aussagen über Ähnlichkeiten von Vektoren zu generieren. Bei den Verfahren werden in aller Regel zwei Vektoren miteinander verglichen. | Ein einfaches Verfahren beruht darauf zu zählen, wie of an der gleichen Stelle eines Vektors eine „1“ vorkommt, d.h. in unserem Beispiel, zu zählen, wieviele gemeinsa- me Worte zwei Texte aufweisen. Schnell wird allerdings klar, dass so längere Texte mit diesem Verfahren deutlich häufger „Ähnlichkeiten“ aufweisen als kürzere. Hier sind Korrekturen vorzunehmen. Folgende beiden Koefzienten wurden daher u.a. entwickelt. | Der Overlap-Koefzient berechnet sich aus dem Quotenten der gemeinsamen Wort- menge und der kleineren der beiden Wortmengen und kann als „Maß für die wech- selseitge Inklusion“ interpretert werden (Klahold, 2009, 73). Für den Vergleich von Vektor B und Vektor D des Beispiels berechnet er sich folgendermaßen: 5/12=0,42; 5 ist dabei die Zahl der gemeinsamen Worte, 12 die kleinere Wortmenge beider Vekto- ren. | Der Dice-Koefzient berechnet sich dem Quotenten der doppelten Anzahl der ge- meinsamen Worte und der Summe der Worte beider Wortmengen. Die Beziehung wird auch hier aus dem Grad des gemeinsamen Vorkommens von Worten abgeleitet. Im Beispiel berechnet sich der Koefzient für die Vektoren B und D folgendermaßen: 2*5/(14+12)=0,38; 5 ist dabei die Zahl der gemeinsamen Worte, 14 die Zahl der Wor- te von Vektor B, 12 die Zahl der Worte von Vektor D. Bei beiden Koefzienten kennzeichnen also höhere Werte eine größere Ähnlichkeit der Vektoren. Exemplarisch zeigen wir die Ergebnisse dieser Berechnungen an unserem Bei- spiel des Vergleichs von Liedertexten (s. Tabelle 2, S. 17 Und Tabelle 3, S. 19). 25
  • 26. Ver- Vektoren gemein- Overlap- Dice-Koef- Pearson Kor- gleich same Koefzient zient relatonsko- Wort- efzient menge A,B VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,43 VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) B,C VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 1 0,09 0,08 -0,41 VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) C,D VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 1 0,09 0,09 -0,34 VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) A,C VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,21 VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) B,D VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 5 0,42 0,38 0,04 VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) Tabelle 6: Ausgewählte Koefzienten zum Vergleich von Vektoren In unserem Beispiel zeigt sich durch die Berechnung dieser Koefzienten (s. Tabelle 6), dass die Zeilen „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. Eins, zwei, drei, vier, beide Hände reich ich dir“ sowie „Komm, tanz den Tango mit mir! Und folge mir im Tangoschrit hier! Ich tanz den Tanz ganz lange mit dir“ die größte Ähnlichkeit im Bezug auf die ihre (auf simple Weise extrahierten) Schlüsselwörter haben. Das Beispiel macht also auch deutlich, dass das Verfahren der Text-Extrahierung nicht immer brauchbare Er- gebnisse für nützliche Empfehlungen ergeben. Es erscheint wenig wahrscheinlich, dass jemand der ein Kinderlied mag, die Empfehlung eines Schlagers als sehr nützlich ein- schätzt. Schließlich gibt es weitere Verfahren der Ähnlichkeitsberechnungen, die das Streuungs- verhalten der Vektoren vergleichen (Klahold, 2009, 71): Der Pearson-Korrelatonskoef- zient vergleicht so die jeweiligen Abweichungen von den mitleren Werten für jede Ei- genschaf und kann Werte von -1 bis +1 ergeben. Eine negatve Korrelaton (-1) würde in unserem Beispiel bedeuten, dass die beiden zu vergleichenden Vektoren quasi spiegel- bildlich aufgebaut sind, z. B. V1=(0,0,1,1) und V2=(1,1,0,0). Gleiche bzw. ähnliche Vekto- ren würden hoch korrelieren (bis max. +1). Distanzen sind „der klassische Weg, die Dimension der 'Ähnlichkeit' mathematsch bere- chenbar zu machen“ (Klahold, 2009, 68). Im Folgenden werden zwei Beispiele für Di- stanzberechnungen vorgestellt: | Der Euklidische Abstand ist „die Wurzel der Summe der quadrierten Diferenzen über alle Koordinaten“ (Rahnenführer, 2009, 8). Im zwei- bzw. dreidimensionalen Raum ist der Euklidische Abstand der Abstand zwischen zwei Punkten im Koordinatensystem. | Der „Manhatan Abstand“ oder auch „City-Block-Abstand“ ist die „Summe der abso- luten (unquadrierten) Diferenzen über alle Koordinaten“ (Rahnenführer, 2008, 9). Im zweidimensionalen Raum ist der Manhaten-Abstand der Weg, den man gehen muss, wenn man nicht zu einem anderen Punkt geht, sondern sich nur in Richtung der Di- mensionen bewegen kann. In der Darstellung erinnern diese Abstände an die recht- winkligen Straßenpläne des Zentrums von New York. Ein weiteres Maß, das häufg eingesetzt wird, ist das Cosinus-Ähnlichkeitsmaß. Es be- rechnet den Unterschied zwischen den Winkeln der Vektoren durch deren Cosinus. Zwar 26
  • 27. lässt sich dieses Vorgehen insbesondere bei den vieldimensionalen Vektoren unserer Beispiele bildlich kaum vorstellen, es handelt sich dabei allerdings um ein Standardver- fahren des Vektorenvergleichs. Je ähnlicher sich Vektoren sind, desto kleiner ist der Win- kel zwischen ihnen (s. Klahold, 2009, 72). Bei der Wahl eines Verfahrens sind neben der Laufzeitkomplexität auch weitere grund- sätzliche Überlegungen wichtg. Beispielsweise ist zu überlegen, ob grobe Unterschiede bei den Abweichungswerten (Streuungsmaß) der einzelnen Eigenschafen durch eine Normalisierung ausgeglichen werden sollten. Umgekehrt könnte auch überlegt werden, ob es Eigenschafen gibt, die wichtger bzw. unwichtger bei der Berechnung der Ähn- lichkeit sind und dementsprechend Gewichtungen vorgenommen werden sollten. Bei- spielsweise würde ein gleichwertger Einbezug aller Eigenschafen von Kleidungsstücken auf einer Handelsplatorm kaum nützliche Empfehlungen für Käufer ergeben: Hohe Zu- sammenhänge bzw. Ähnlichkeitsmaße würden sich typischerweise für die gleichen Pro- dukte in unterschiedlichen Konfektonsgrößen ergeben. Nützliche Empfehlungen sind je- doch eher passende oder ergänzende Kleidungsstücke in der gleichen Konfektonsgröße, beispielsweise das Hemd zur Jeans in der gleichen Konfektonsgröße (siehe auch Ab- schnit 2.7, S. 28). Klassifkatonsverfahren Während die bisher vorgestellten Verfahren versuchen, jedes Element in einem System miteinander zu vergleichen, versuchen die folgenden Verfahren, Elemente zu gruppie- ren. Empfohlen werden dann Elemente aus einer Gruppe. In der Regel werden die Grup- pen mit Trainingsdaten bzw. der aktuellen Version des Korpus unter Einbezug von Exper- tenwissen gebildet; weitere Elemente werden dann den Gruppen zugeordnet. Das Spek- trum an multvariaten Verfahren stellt zahlreiche Möglichkeiten und Ansätze zur Verfü- gung. Im Folgenden möchten wir nur kurz einige Ansätze skizzieren (s. Klahold, 2009, 77f): | Das Minimum-Descripton-Length-Verfahren verfolgt den Ansatz, dass ein Empfeh- lungselement immer derjenigen Klasse zugeordnet wird, bei deren erweiterter binär- codierten Darstellung am wenigsten Speicherplatz benötgt wird. Es basiert also auf der Annahme, dass das kompakteste Modell optmal ist. | Der Naive-Bayes-Klassifkator berechnet die bedingte Wahrscheinlichkeit, dass ein Empfehlungselement einer Klasse zugehörig ist. Es wird dabei von der (naiven) An- nahme ausgegangen, dass alle Atribute unabhängig voneinander aufreten. | Beim ID3-Verfahren wird mit Trainingsdaten ein Entscheidungsbaum aufgebaut. Dazu durchläuf ein Algorithmus die Daten, der jeweils diejenigen Eigenschafen (Vektor- positonen) auswählt, die den Korpus am deutlichsten teilen. Das kann bei Personen beispielsweise das Rauchverhalten sein (Raucher bzw. Nichtraucher). Alle Elemente werden dann in diesem Baum zugeordnet. | K-Means-Clustering ist das klassische Clustering-Verfahren. Besonderheit beim Clus- tering ist, dass die Gruppierungen erst im Verfahren entstehen und nicht schon vor- her bekannt sind. Es werden willkürlich im Vektorenraum Punkte ausgewählt und es wird geschaut, ob diese brauchbare „Zentren“ für Ansammlungen von Elementen (im mehrdimensionalen Vektorraum) sind. Dann wird solange iteratv verbessert, bis pas- sende „Cluster“ entdeckt und ausgewählt sind. 27
  • 28. Soziale Netzwerkanalyse als alternatver Ansatz für die Ähnlichkeitssuche beim kolla- boratven Filtern Neben den oben beschriebenen „klassischen“ Verfahren der Ähnlichkeitsfeststellung gibt es Versuche, auch die Soziale Netzwerkanalyse als eigenständiges Verfahren für Empfehlungssysteme fruchtbar zu machen. Typischerweise spannen sich Kontakte und Kommunikaton wie ein Netz auf: Man kommuniziert mit jemandem, der wiederum mit anderen kommuniziert. Aus den Sozialwissenschafen gibt es mit der sozialen Netzwerk- analyse ein Verfahren, das die Vernetzung berechnen und darstellen lässt. Es kann also auch Nähe berechnet werden. Nun steckt hinter der Verwendung der sozialen Netz- werkanalyse in Empfehlungssystemen die Absicht, ein alternatves Instrument zur Be- rechnung von „Nähe“ zu erproben. Es gibt dazu erste Untersuchungen, die dermaßen generierte Empfehlungen mit herkömmlich generierten Empfehlungen vergleichen und mit beiden Verfahren ähnliche Ergebnisse erzielen (Kamper, Meyer & Reichart, 2008). 2.7 Ähnlichkeit und weitere Kriterien Häufg wird das Kriterium der Ähnlichkeit als Grundlage für Empfehlungen gewählt. So werden beispielsweise in Online-Shops Bücher mit ähnlichen Inhalten angeboten, weil man davon ausgeht, dass diese für den potenziellen Käufer interessant sind. Es wird da- von ausgegangen, dass Nutzer mit ähnlichem Profl auch ähnliche Interessen und Ge- schmack haben, so dass darauf aufauend nützliche Empfehlungen entstehen können. Allerdings ist das Kriterium der Ähnlichkeit nicht immer hilfreich. So kann es sein, dass bei der Suche nach einem portugiesischen Restaurant auch andere Restaurants empfoh- len werden, die ähnlich sind: Wenn diese jedoch in einem weit enternten Ort liegen, am gesuchten Tag geschlossen haben usw., ist die Ähnlichkeit kein nützliches Kriterium. Was also „nützlich“ erscheint, muss nicht zwangsläufg „ähnlich“ zu einem bestmmten Element sein oder auf Ähnlichkeiten mit anderen Benutzern beruhen. Weitere Kriterien können sein: Räumliche Nähe, Aktualität, Bewertungen, Komplementarität oder auch Vollständigkeit (siehe auch Abschnit 4.6, S. 71f). 2.8 Nachteile und Herausforderungen der Ansätze Die beiden vorgestellten Ansätze haben Vorteile, auf die im wesentlichen bereits einge- gangen wurde. Im folgenden werden kurz Einschränkungen und Herausforderungen der Verfahren beschrieben. Einschränkungen und Herausforderungen inhaltsbasierten Filterns Beim (reinen) inhaltsbasierten Filtern liegen folgende Einschränkungen und Herausfor- derungen für den Einsatz vor: | Es müssen bereits zahlreiche Daten über die zu empfehlenden Elemente vorliegen (z. B. in Form von Metadaten), durch Experten erstellt werden oder automatsch gene- riert werden. Während letzteres bei Texten, wie dargestellt, noch vergleichsweise einfach ist, ist es für textarme Materialien wie Videos, Musik und Fotos deutlich schwerer und stark eingeschränkt. | Das inhaltsbasierte Filtern vertraut nur auf die Inhalte der Objekte selbst und lässt Empfehlungen oder Erfahrungen von anderen (ähnlichen) Nutzern ausser Acht. 28
  • 29. | Die Gewichtung der Eigenschafen von Empfehlungselementen, die bevorzugt bei Empfehlungen zum Tragen kommen sollen, ist sorgfältg vorzunehmen. So ist es beim Einkaufen im Online-Modeshop eher sinnvoll, ergänzende und passende Kleidung in der gleichen Konfektonsgröße empfohlen zu bekommen. Ein wesentlicher Vorteil der Nutzung vorhandener Daten ist beim inhaltsbasierten Fil- tern, dass solche Systeme von Anfang an „laufen“ und sinnvolle Empfehlungen geben können. Herausforderungen kollaboratven Filterns Beim inhaltsbasierten Filtern werden folgende Probleme gesehen (s. Klahold, 2009, 66f; sofern keine andere Quelle genannt): | Es gibt ein sogenanntes „Kaltstart-Problem“: Wenn eine gewisse kritsche Masse an Daten nicht vorhanden ist, können keine (sinnvollen) Empfehlungen gegeben wer- den. Voraussetzung eines solchen Systems ist also, dass es bereits eine aktve Com- munity und Nutzer bzw. generierte Daten gibt. Daher gibt es Ansätze, wie solche feh- lenden Daten, beispielsweise für neue Elemente (Neuerscheinungen) vorhergesagt werden können (s. Givon & Lavrenko, 2009). | Diese Abhängigkeit von den Aktvitäten der Nutzer ergibt auch die Herausforderung der „Spärlichkeit“: Benutzerbasierte Metadaten, die von den Benutzern selbst aktv vergeben wurden (Bewertung, Präferenzen, Empfehlungen), sind of nur spärlich vor- handen. | Das Problem der „grauen Schafe“ liegt vor, „wenn ein Benutzer bezüglich seiner Be- wertungen zwar Profl-Überdeckungen mit anderen Benutzern hat, diese aber in Sa- chen Bewertung so stark variieren, dass keine 'verwandten' Benutzer selektert wer- den können“ (Klahold, 2009, 150) Weitere Herausforderungen beziehen sich weniger auf die Datenlücken als auf die Be- sonderheiten kollaboratver Empfehlungen: | Der „Lemming-Efekt“ bezieht sich auf das Phänomen, dass Empfehlungen zu Selbst- läufern werden. Empfohlene Elemente werden häufg betrachtet oder gekauf. Da- durch wird die Relevanz „künstlich“ erhöht. Potenzielle Bestseller bei Amazon, bei- spielsweise von populären Krimiautoren, tauchen auf einmal in vielen Einkaufslisten auf; werden folglich in vielen Buchbeschreibungen als Kaufempfehlung gelistet, ob- wohl sachlich kein Zusammenhang besteht und sie bekommen dadurch eine erhöhte Aufmerksamkeit. Sprichwörtlich „wie die Lemminge“ kaufen Amazonkunden dann auf einmal ein Buch, nach dem sie ursprünglich gar nicht gesucht haben. | Wenn sich ein System nur auf die Nutzergemeinschaf „verlässt“ kann dies auch dazu führen, dass andere relevante, bzw. neue Empfehlungselemente nur schwer aufge- nommen werden, da alle mit den bereits vorhandenen Empfehlungen „eingedeckt sind“. Hier läuf das System bzw. ihre Nutzer in die Gefahr eines Tunnelblicks (Kla- hold, 2009, 118). Um solche Efekte vorzubeugen, empfehlt es sich zufällige „Emp- fehlungen“ zu geben. Aus Nutzersicht können sich weitere Schwächen ergeben. So kann es sein, dass bei- spielsweise Nutzerprofle relatv früh (bei der Registrierung) festgelegt werden und Ver- änderungen im Profl nicht unbedingt wahrgenommen werden müssen. 29
  • 30. 2.9 Hybride Lösungen Eine Lösung, mit den Vor- und Nachteilen der beiden Ansätze des kollaboratven sowie des inhaltsbasierten Filterns umzugehen, ist die Kombinaton beider Verfahren. Tatsäch- lich wird dies inzwischen auch in vielen, wenn nicht sogar den meisten Empfehlungssys- temen im Web in dieser Weise realisiert. Bei einigen Systeme können sich Nutzer gegen- seitg „persönliche Empfehlungen“ schicken. Pfadbasierte Empfehlungen Ausgehend von der Erfahrung, dass viele die gleichen Wege nutzen um durch das Web zu navigieren, wurde das sogenannte pfadbasierte Verfahren (Engl. trail based) für Emp- fehlungen entwickelt (u.a. Gams & Reich, 2004). Dazu wurde ein Konzept entwickelt, wie solche Pfade im Web beschrieben werden können, wie Ähnlichkeiten der Pfade berech- net werden können und wie Benutzer mit ähnlichen Spuren gefunden werden können (Gams, 2005). Auf Grundlage dieser Fußspuren von Gleichgesinnten und -interessierten sollen dann Empfehlungen für die weitere Navigaton gegeben werden. Der Ansatz wur- de also für die Informatonsrecherche im Web vorgeschlagen und entwickelt. Bei Gams (2005) wurden im Experiment drei Szenarien durchgespielt und zwar jeweils mit und ohne Unterstützung durch den Empfehlungsservice. Dabei galt es vier Rechercheaufga- ben zu erledigen, u.a. mussten Projektpläne von vier Projekten gefunden werden, die mit Miteln der Europäischen Kommission ko-fnanziert wurden. Das System erhielt hier erwartungsgemäß positve Werte. Tabelle 7, 8: Durchschnitliche Zahl der Schrite und Zeiten für die Erledigung von 4 Aufgaben mit und ohne pfadbasierten Empfehlungen (n=14) Quelle: Gams, 2005, Tabellen 7.4 und 7.5, 152 Ontologiebasierte Ansätze Ontologiebasierte Ansätze verwendet weder inhaltsbasiertes noch kollaboratves Filtern wie oben beschrieben. Dieser Ansatz beruht im wesentlichen darauf, dass Ontologien verwendet werden. Mit ihrer Hilfe werden in diesem Fall auf fehlende Informatonen zu dem Nutzer geschlossen. Dadurch wird vermieden, dass die Nutzer z. B. fehlende Anga- ben in Fragebögen ergänzen müssen bzw. trotz lückenhafer Profle Empfehlungen gege- ben werden können. Ontologien sind eine Technologie, welche es erlaubt, reichhaltge Beziehungen auch für Computer berechenbar zu defnieren. Ontologien sind also kom- plexe Systeme der Datenbeschreibung, die von Experten entwickelt werden und Wis- sensbestände beschreiben. Mit ihnen lassen sich hierarchische Gliederungssysteme von Wissen (Taxonomien, z. B. Artenbeschreibungen in der Biologie), aber auch komplexe Angaben über die Relatonen von Wissen in einer Form darstellen, dass auch Computer diese verarbeiten können (vgl. Schafert u.a., 2009). 30
  • 31. Schickel-Zuber (2007, 12) schließt bei den Einsatzmöglichkeiten die Finanzbranche, den Gaming- und den Gesundheitssektor aus. Dort würde er eher regelbasierte Ansätze ver- wenden. Für die von ihm untersuchten Anwendungsbereiche des Online-Handels mit umfangreichen Produktkatalogen hat er seinen Ansatz mit anderen Verfahren verglichen und gute Ergebnisse erhalten. Dabei zeigt sich u.a., dass der ontologiebasierte Ansatz v.a. im Bezug auf die Neuartgkeit der Empfehlungen sehr gute Werte erhält (S. 130). Die Ausarbeitungen von Schickel-Zuber (2007) wurden patentert und werden unter der Be- zeichnung „Prediggo Technologie“2 stark beworben. Tag-basierte Empfehlungen In traditonellen Medienarchiven werden Materialien zu Kategorien und Unterkategori- en zugeordnet, welche häufg auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten. Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu mar- kieren, sie zu „taggen“ (von Engl. „tag“: Etket). Mit Hilfe der Tags können andere ent- sprechende Ressourcen recherchieren; schnell haben sich populäre Webdienste entwi- ckelt (vgl. Schafert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von traditonellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also „eine ofene, efziente Möglichkeit der Klassifkaton von Dokumenten“, weil „eine brei- te Palete von unterschiedlichen Termen für die Beschreibung eines Dokuments bereit- gestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192). Tags werden als gute Datenbasis für Empfehlungen gesehen, da anzunehmen ist, dass Beiträge und Objekte ähnlich sind, wenn sie mit den identschen Tags versehen werden. Beispielsweise wird dieser Ansatz bei Librarything.com (2006) eingesetzt. Im Forschungsprojekt KiWi3 wird mit diesem Ansatz versucht, die Vorschläge für andere Wiki-Inhalte zu verbessern und auch semantsche Empfehlungen einzubauen, die auf den Tags der Nutzer des semantschen Wikis basieren (vgl. Dolog, 2009). Wir haben dazu Peter Dolog als zuständigen Experten Fragen gestellt. 2 htp://www.prediggo.com, Stand 12/2009 3 htp://www.kiwi-project.eu, Stand 02/2010 31
  • 32. Interview mit Peter Dolog zu tagbasierten Empfehlungen ? Social Tagging ist sehr populär. Warum ist es aus Ihrer Sicht hilfreich, auf Grundlage von nutzergenierten Schlagworten Empfehlungen zu geben? ! Da gibt es zwei Aspekte des Social Tagging: den persönlichen Aspekt (eigene Tags) sowie den sozialen Aspekt, nämlich Tags von Personen in der Community, mit denen man in Beziehung steht. In beiden Fällen repräsenteren Tags Interesse, persönlicher oder gemeinschaflicher Art. Wenn daher die Tags gut kombiniert werden, kann das helfen, neue Entwicklungen, Informatonen, Diskussionen und so weiter zu fnden und aufzuzeigen. ? Tags sind manchmal nur persönliche Aufgabenbeschreibungen wie "erledigen". Wie gehen Sie mit sol- chen Tags um, die ofensichtlich für andere keinen Sinn machen? ! Es gibt immer einen Weg der Normalisierung. Einige Tags können einfach bei der Berechnung von Empfehlungen ausgeschlossen werden, wenn sie keinen Sinn machen. Das ist jedoch domänenabhängig und benötgt Konfguratonen. Aber auch "Erledigen"-Tags sind wichtg, weil sie aktuelle Aufgaben re- präsenteren, die von anderen genutzt werden können, weil sie Hinweise darauf geben, für was die Res- source nützlich sein könnte. Auch diese Tags könnten also hilfreich sein, um Ressourcen zu empfehlen, aber dies hängt vom Kontext ab. ? Was empfehlen Sie Entwicklern, die über ein tag-basiertes Empfehlungssystem nachdenken? ! Sie sollten die Tags mit zusätzlichen Informatonen verknüpfen, um sie für Empfehlungen nützlich zu machen. Dr. Peter Dolog ist Professor für „Intelligent Web and Informaton Systems“ am Computer Science De- partment der Universität Aalborg in Dänemark. Er forscht dort zu tag-basierten Empfehlungssystemen. Ein vollständiges Profl fndet sich auf seiner Homepage htp://www.cs.aau.dk/~dolog/ (12/2010) 32
  • 33. Beispiele für hybride Empfehlungssysteme Eine Übersicht über Beispiele für solche hybriden Lösungen fndet sich in Klahold (2009): Name Emp.- Kurzbeschrei- Eigenschafsanalyse Proflbildung Distanzmaß Literatur ele- bung ment Fab Web- Einzelne Analyse TF-IDF-Derivat Erstellung und Vergleich von Cosinus-Ähnlich- Balabano- seiten zwischen Doku- Benutzerproflen (Verhalten keitsmaß, Nearest vic u.a. menten und Be- und Bewertungen) Neighbours Verfah- (1997) nutzern Empfehlungen auf Basis der ren Ähnlichkeit von Benutzern PHOAKS Web- Nach News- Manuelle Metadaten, Manuelle Erstellung des Pro- Cosinus-Ähnlich- Terveen, (People Help seiten groups gruppier- Heuristk, TF-IDF-Deri- fls durch Auswahl der News- keitsmaß, Nearest Hill, Amen- One another te Empfehlungen vat group Neighbours Verfah- to, Mc Do- Know Stuf) relevanter Web- ren nald & Cre- seiten ter (1997) Let's Browse Web- Webseiten (Sub- TF-IDF-Derivat Analyse einer „Start-Websei- Cosinus-Ähnlich- Lieberman, seiten seiten, Links) te“ (einfaches explizites keitsmaß Van Dyke & werden empfoh- Strukturprofl) sowie Verfol- Vivacqua len gung der Links (1999) CASMIR Doku- Empfehlung von TF-IDF-Derivat Erstellung eines Profls durch Cosinus-Ähnlich- Klahold mente Dokumenten die Gewichtung von Wort- keitsmaß (2009) nach Relevanz vektoren (Interesse) LaboUr Web- Auf Basis des TF-IDF-Derivat Generierung eines Benutzer- Naiven Bayes Klas- Pohl & Nick (Learning seiten Profls werden profls aus dem impliziten sifkator (NBK), (1999) about the verwandte Be- Verhalten Pearson Korrelat- User) nutzer gesucht onskoefzienten (PC) Tango Artkel Noch nicht gele- Manuelle Metadaten, Manuelle Pfege (Kategorien, Overlap Koefzient Claypool sene Artkel wer- TF-IDF-Derivat, Schlüsselworte) (OK), Pearson Kor- u.a. (1999) den empfohlen Bewertung von Artkel relatonskoefzein- auf einer Skala von 1- ten (PC) 10 Nakif Filme Filme werden TF-IDF-Derivat Manuelle Pfege: Benutzer Heuristk Klahold empfohlen sowie die Empfehlungsele- (2009) mente (z. B. Filme) haben ei- gene Profle; Kombinaton von Wertungsspalten MovieLens Filme Filme werden DoppelgaengerBots Bewertung von Filmen auf ei- Heuristk, Pearson Good, empfohlen (TF-IDF-Derivat) ana- ner Skala von 1-5 Korrelatonskoef- Schafer, lysieren die Filmbe- zienten (PC), Cosi- Konstan & schreibung nus-Ähnlichkeits- Borchers RipperBots – iterat- maß (1999) ven Regelerzeugung GenreBots bewerten Filme in Abhängigkeit des Genres Tabelle 9: Übersicht über ausgewählte hybride Empfehlungssysteme Quelle: Klahold, 2009, 144f 33
  • 34. 34
  • 35. 3 EMPFEHLUNGSSYSTEME: AUSGEWÄHLTE EINSATZGEBIETE Überall dort, wo mit pffgen Ideen und guten Lösungen Geld verdient werden kann, ist es schwierig, konkrete Aussagen über technologische Lösungen zu bekommen. Dies trift nach unseren Erfahrungen insbesondere auf Empfehlungssysteme zu: Gute Lösun- gen für Empfehlungssysteme lassen sich in der Regel mit geringen Adaptonen an meh- rere Kunden aus unterschiedlichen Branchen verkaufen. Dabei gibt es jedoch keine Ver- lautbarungen dazu, welche Systeme, die zum Teil in der wissenschaflichen Literatur be- schrieben werden, bei Firmen eingesetzt werden. Hinzu kommt wohl auch, dass die ex- akten Vorgänge und Algorithmen of schwer zu beschreiben sind. Abbildung 7: Ausschnit aus der SonntagsZeitung zu einem Artkel über Gavin Poter, Entwickler eines Empfehlungssystem Quelle: SonntagsZeitung, 13. Juli 2008, 81 Auf alle Fälle haten wir bei den folgenden Beschreibungen von Realisierungen der Emp- fehlungssysteme das Problem, dass es in der Regel nur unzureichende Beschreibungen der konkreten Lösung frei verfügbar gibt. Was da genau passiert, wird of mit einem Halbsatz abgehandelt, nach dem Moto „and the magic occurs“, oder es werden andere esoterische Bezüge gegeben (siehe Auszug der SonntagsZeitung in Abbildung 7). 3.1 Überblick über fünf ausgewählte Einsatzgebiete Im Folgenden haben wir uns fünf Einsatzgebiete, in denen Reputatonssysteme zur Erfül- lung von unterschiedlichen Zwecken eingesetzt werden können, genauer angeschaut. Die Einsatzgebiete wurde gezielt so ausgewählt, dass eine möglichst weite Spanne abge- deckt und viele verschiedene Varianten vorgestellt werden können. 35
  • 36. Einsatzgebiet Experten- und Ar- Partnersuche Produkte und Web-Materialien Prozess- beitsplatzsuche Dienstleistungen empfehlungen Absicht Arbeitsstellen bzw. Finden von Lebens- Unterstützung bei Empfehlungen für diverse (u.a. Arznei- Experten mit größt- partnern der Entscheidung für kostenlos zugängli- verschreibung, Unter- möglicher Passung Produkte und che Materialien stützung Lernender, zu fnden Dienstleistungen Fernsehprodukton) Verfahren Suchanfragen und Eingangsbefragung, Alle bekannten Emp- of tagbasierte Emp- Inhaltsbasierte und Ergebnisse aufgrund Partnervorschläge fehlungsverfahren fehlungen und kolla- kollaboratve Ansätze eigenschafsbasier- aufgrund paarpsy- sind im Einsatz boratves Filtern ter Verfahren; aber chologischer Er- auch Inhalts- und kenntnisse, eigen- Netzwerkanalysen schafsbasierte, teils fallbasierte Verfah- ren Visualisierung Ranglisten (v.a. Su- Ranglisten mit Fo- u.a. Treferlisten für Markierung im Text, Treferlisten, Vor- chergebnisse) tos, teils inkl. „Mat- Empfehlungen am Ranglisten schläge, auch Signal- ching-Punkte“, auch Seitenrand, Ranglis- ton (Alarm!) Benachrichtung per ten, E-Mail-Benach- E-Mail richtgung Anmerkung Gewichtung der Ei- Partnervorschläge Online-Händler für - Einige der Beispiele genschafen (z. B. nach Passung der Ei- Bestseller verwen- sind nicht webbasiert räumliche Nähe) z. T. genschafen, auf- den eher kollabort- notwendig grund persönlich- ves Filtern, Nischen- keitspsychologischer händler und Spezia- Untersuchungen listen eher inhalts- basiertes Filtern Beispiele Virtueller Arbeits- Parship, Friens- Amazon, Zappas, Photoree, fwd, Re- ALOE, LIVE u.a. markt, Manager cout24, Elitepartner Last.fm, Library- Mashed u.a. Lounge, Biomedex- Things, Preiser Re- perts cords, Pandora, Mo- vielens u.a. Tabelle 10: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten Im folgenden stellen wir die einzelnen Bereiche und Beispiele vor, soweit wir dazu Infor- matonen gefunden haben. 3.2 Experten- und Arbeitsplatzsuche im Web Während es nicht weiter schlimm ist, mal eine Filmempfehlungen zu erhalten, die nicht ganz den eigenen Geschmack trift, sind Fehlgrife bei der Personalauswahl deutlich ver- heerender. Nicht zuletzt daher wird hier versucht, „fehlerhafe“ Empfehlungen weitest- gehend zu vermeiden. Ofensichtliche Vorteile bieten Online-Jobbörsen, Business-Clubs und Karriere- oder Expertenplatormen daher nicht nur für Unternehmen, sondern auch für Arbeitssuchende selbst. Im folgenden stellen wir Empfehlungssysteme für die Arbeitsplatz- und Expertensuche vor. Wie sich zeigt, arbeiten diese, soweit wir dies von aussen beurteilen können, fast alle mit einem eigenschafsbasierten Ansatz, d.h. Empfehlungen werden aufgrund des Nutzerprofls bzw. der Sucheingaben gegeben. Bei der vorgestellten Expertensuche im biomedizinischen Bereich wird neben semantsch unterstützten Auswertungen der Ver- öfentlichungen als Grundlage eine soziale Netzwerksanalyse verwendet. Schließlich stellen wir kurz das Modell eines Empfehlungsservices für Arbeitnehmer vor, der auf kol- laboratvem Filtern, nämlich Angaben von Arbeitgebern, beruhen soll. 36
  • 37. Virtueller Arbeitsmarkt der deutschen Arbeitsagenturen Am „Virtuellen Arbeitsmarkt“, der Stellen- und Bewerberbörse der deutschen Bundesan- stalt für Arbeit, werden Arbeitssuchenden Stellenvorschläge gemacht. Als Arbeitssu- chender kann man in der Detailsuche bis zu 15 Kriterien angeben, beispielsweise Regi- on, PLZ, Mindestgehalt. Im System können sich auch Arbeitgeber Stellensuchende vor- schlagen lassen, dabei sind u.a. auch persönliche und soziale Fähigkeiten auswählbar. Diese Informatonen beruhen auf den Selbstauskünfen der Stellensuchenden. Zwar unterliegen die genauen verwendeten Empfehlungsverfahren der Geheimhaltung, es ist aber bekannt, dass die Sofware ELISE 5.0 von der Firma WCC eingesetzt wird, die auch beim englischen Arbeitsmarktservice, dem „Job Center Plus“ verwendet wird (vgl. Heymann, 2004, 14). Daher werden wird uns im folgenden darauf beschränken müssen, die Funktonalitäten zu beschreiben. Ofensichtlich wird im System jedoch kein kollabo- ratves Filtern eingesetzt, weil keine entsprechenden Daten erfragt werden (z. B. Bewer- tungen von Arbeitgebern oder Arbeitssuchenden). In einer Seminararbeit weisst Heymann darauf hin, dass das System Schwierigkeiten hat, die korrekte Semantk zu erkennen: „So erhält man bei der Suche nach einem „Astro- nom“ eine 100%ige Trefergenauigkeit für einen „Gastronom“. Gibt man die im Arbeits- leben synonymen Begrife „Logopäde“, „Sprachtherapeut“ und „Sprachheilpädagoge“ an (…), so werden nur Trefer mit der exakten Berufsbezeichnung geliefert“ (Heymann, 2004, 15). Ein Test hat ergeben, dass auch heute bei der Suche nach dem Beruf „Astro- nom“ auch diverse Gastronomie-Berufe vorgeschlagen werden und Stellensuchende un- bedingt alle synonym verwendeten Berufsbezeichnungen verwenden sollten, um alle Stellenanzeigen zu sehen: Weiterhin erhält man bei der Suche nach „Logopäde“ nicht auch automatsch alle Anzeigen für „Sprachtherapeut“ oder „Sprachheilpädagoge“4. Da im Formular angekreuzt werden kann „Keine Stellenangebote mit ähnlichen Berufen an- zeigen“ geht ein Stellensucher höchstwahrscheinlich (und irrtümlich) davon aus, ver- wandte Stellen angezeigt zu bekommen. Heymann (2004) fasst zusammen, und auf- grund des von uns gewonnen Eindruck bestätgen wir diesen Eindruck, „dass das Ge- samtsystem derzeit noch nicht die Leistung bietet, die a) von der Bundesagentur ange- strebt wird und b) den Anwendern des Systems den Eindruck vermitelt, ein kompe- tentes Empfehlungssystem zu sein“ (S. 16). Die Jobbörse Manager-Lounge Manager-Lounge5 ist eine internetbasierte Jobbörse, die sich auf die Vermitlung von Top-Management-Positonen ab einem Jahresgehalt von 100.000 Euro spezialisiert hat und dabei wie ein Businessclub agiert. Die streng defnierten Aufnahmebedingungen (z. B. mehrjährige Personal-, Budget- und Führungsverantwortung) sollen Exklusivität ga- ranteren. Derzeit gibt es einen geschlossenen Mitgliederkreis von über 2.200 Personen, die sich auch auf regelmäßig statindenden lokalen Versammlungen trefen. Erst nach einer erfolgreichen Testphase (z. B. Coaching- und Aufnahme-Telefonat, Einhaltung der Clubregeln, Engagement) wird das Mitglied in den kostenpfichtgen Club aufgenommen. Die Daten für das Profl des Bewerbers werden nach und nach manuell von Manager- Lounge selbst in den sogenannten MatchManager übertragen und stellen die Basis für den Vermitlungsprozess dar. Die Erhebung der Daten erfolgt dabei durch ein elektroni- sches oder schrifliches Antragsformular, das von dem Bewerber mit den wichtgsten 4 Diese Überprüfung wurde am 23.1.2010 vorgenommen. 5 htps://manager-lounge.manager-magazin.de, Stand 02/2010 37
  • 38. Daten (z. B. Kontakt, Alter, derzeitge Stelle) ausgefüllt werden muss, sowie ein telefoni- sches Coaching- und Aufnahmegespräch, in dem die Angaben des Antragstellers über- prüf sowie ein Lebenslauf und Fähigkeitenprofl erstellt werden. Unternehmen, die nach Bewerbern in der Manager-Lounge suchen, geben ein Suchpro- fl in den sogenannten Match-Manager ein. Dieses wird mit den in der Datenbank vor- handenen Proflen abgeglichen. Als Abfragekriterium sind auch Und- und Oder-Verknüp- fungen möglich. Das Suchprofl umfasst sieben Kategorien, wie beispielsweise Positon, Funkton, Branche und Alter. Als Ergebnis werden anonymisierte Mitglieder angezeigt, die den Auswahlkriterien entsprechen. Hat das Unternehmen Interesse an einem be- stmmten Person gefunden, dann kann es mit dem Kandidaten in Kontakt treten. Dem Angeschriebenen steht es dann auch frei, seine Anonymität aufzuheben und seinen Le- benslauf zur Ansicht freizugeben (Heymann, 2004, 17f). Biomedexperts Strukturiertes Wissen und ein vielseitges Netzwerk sind wichtge Voraussetzungen für die wissenschafliche Zusammenarbeit. Biomedexperts6 ist ein soziales Netzwerk, das Forscher und Experten im Anwendungsfeld der Biowissenschafen sowie Mediziner und Fachjournalisten zusammenbringt, um einen länderübergreifenden wissenschaflichen Austausch sowie ein gemeinsames Arbeiten zu ermöglichen und zu verbessern. Die für Mitglieder kostenlose Platorm wurde 2008 von Collexis7 ins Leben gerufen. Seitdem sind über 270.000 Biowissenschafler dem Netzwerk beigetreten. Nachdem sich der Nutzer angemeldet hat und sein Fachgebiet angegeben hat, liefert ihm das System Ex- perten aus dem Sachgebiet auf der Basis der Häufgkeit von wissenschaflichen Publika- tonen. Biomedexpert wertet dazu kontnuierlich Publikatonen aus dem Fachgebiet aus und generiert und ergänzt so automatsch Profle der Mitglieder. Biomedexperts schaft es auf diesem Weg weltweit fast alle Forscher im Bereich der Biowissenschafen, die in den letzten zehn Jahren publiziert haben, in das Netzwerk einzubeziehen, sämtliche re- levanten professionellen Verbindungen innerhalb des Netzwerks zu analysieren und neue mögliche Forschungspartner, Mitautoren, usw. ausfndig zu machen. Mitglieder können im System nach Name, Land oder Schlüsselwörter (z. B. Krankheiten, Sympto- me) suchen und so ihr eigenes Netzwerk aufauen, welches auch die Koautoren von Ko- autoren umfasst. Wie bei sozialen Netzwerken üblich, können neue Kollegen eingeladen werden und Mitglieder dem eigenen Netzwerk hinzufügen. Auch ist ein detailliertes wis- senschafliches Profl mit den Publikatonen des Mitglieds, deren Relevanz sowie der Pu- blikatonshäufgkeit im Verlauf der Jahre einzusehen. Eine geographische Darstellung zeigt in welchen Ländern der jeweilige Experte vernetzt ist (Herzog & Dix, 2009). Durch die sogenannte „Fingerprint-Technologie“ (Engl. für „Fingerabdruck“), die hinter dem System von Biomedexperts steckt, werden mehrdeutge oder irrelevante Ergebnis- se automatsch eliminiert. Dies ist durch eine semantsche Analyse von Textdokumen- ten, durch die interne und externe Dokumente analysiert, aggregiert und semantsch verknüpf werden können, möglich. „Die semantsche Analyse erfolgt auf der Basis eines oder mehrerer Thesauri. Bei der Indexierung eines Textes wird jeder Begrif des Doku- mentes mit den eingebundenen Fachthesauri verglichen. Taucht ein Begrif sowohl im Text als auch im Thesaurus auf, wird er in dem sogenannten Fingerprint des Dokuments gespeichert. Für jeden Begrif des Fingerprints wird nun mitels komplexer Algorithmen die Relevanz im Kontext des verarbeitenden Textes ermitelt. So wird eine gewichtete In- 6 htp://www.biomedexperts.com, Stand 02/2009 7 htp://www.collexis.com, Stand 02/2010 38