Personalisierung im Internet Dr. Udo Ornik
Übersicht Begriffsdefinition Grundlegende Techniken zur Identifizierung und Wiedererkennung Strategien zur Personalisierung Beispiele Quellen
Definition Personalisierung Anpassung von angebotenen Informationen  an die Interessen des jeweiligen Betrachters.  Aber auch: Sammlung von Informationen über das  jeweilige Verhalten des Betrachters
Einsatzbereiche  Newsgroups Email Web In folgenden Bereichen des Internet bietet sich die Personalisierung an
Problem: Identifizierung Um ein Internetangebot zu personalisieren muss es zunächst Möglichkeiten geben zu identifizieren. Das Internet bietet hierzu keine eindeutige Lösung verschiedene Verfahren müssen in Kombination eingesetzt werden
Problem: http:// Das http-Protokoll ist Verbindungslos. Das Web  hat also kein Gedächtnis Get URL1 URL i Get URL2 Get URL3 . . . Im Prinzip ist für jede Webseite eine Verbindung  notwendig
Problem: NAT und Proxies Hinter dem Gateway  verliert sich  die Spur
Techniken: Identifizierung Benutzername und Kennwort Email-Adresse Cookies URLs mit codierter Benutzerkennung IP-Auflösung Add-On Programme SSL-Certifikate
Cookie setzen <html> <head> <script language=JavaScript> function  setCookie (name,value) { document.cookie=name+&quot;=&quot;+escape(value) } </script> </head> <body> <A HREF=&quot;javascript: setCookie ('testCookie','Hallo ich bin\'s') &quot;>  ... Setze Cookie ... </A> </body> </html>
Techniken: Cookies SITESERVERID=167adba237d88dd7847091369810e7d6bahnauskunft.com/064285900831887777323730704029419385*
Cookie lesen <html> <head> <Script language=JavaScript> function  getCookie()  { alert(unescape(document.cookie)) } </Script> </head> <body onload= getCookie() > </body> </html>
Cookies Pro Server max. 20  Cookies   Die Gesamtzahl der  Cookies  300  Die maximale Größe 4KB  Wird die Beschränkungen überschritten, wird das älteste  Cookie  gelöscht/überschrieben.  Wird die Größe überschritten, wird zuerst der Wert und dann der Name des  Cookies  gelöscht.
Techniken: Codierte URLs Nach der Definition der persönlichen  Einstellungen wird eine Eintrittswebsite als  Favorit gespeichert: http://www.test.com/start.htm ?userid=215859 Über den Übergabestring kann der User beim  Anklicken dieses Links wieder identifiziert  werden
Codierte URLs Bsp: ASP <%  userid =Request.Querystring(´´userid´´) %>
Techniken: Auslesen der Userdaten <% DbConn=Server.CreateObject(ADODB.Connection) DbConn.open (DSN=´´odbc-name´´) RS=Server.CreateObject(ADODB.RecordSet) SQL=´´Select * FROM userdaten where ID = ´´& userid RS.open DBConn, SQL %> Hallo <%=RS(´´Vorname´´)%> schön Sie wieder zusehen
Techniken: Klassifizierung der Daten Die Personalisiert dargestellten Daten müssen vorher in aufwendiger Form klassifiziert werden. In der Regel manuell, da heute eine automatische Klassifizierung nur grobe Unterscheidungen liefert (Bsp: Sport, Wirtschaft, Politik.... Dokument wird mit Metadaten versehen, die die gewünschte Information enthalten oder extern in einem zugeordneten Datensatz gespeichert werden
Techniken: Metadaten Meta Tags des HTML-HEADERS <META name=&quot; DESCRIPTION &quot; content=&quot;Homepage, Politik, Wirtschaft, Sport, Vermischtes, News, Wetter“> <META name=&quot; KEYWORDS &quot; content=&quot;Homepage, Politik, Wirtschaft, Sport, Vermischtes, News, Wetter“> <META name=&quot; REVISIT-AFTER &quot; content=&quot;1 day&quot;>  <META HTTP-EQUIV=&quot; CONTENT-LANGUAGE &quot; content=&quot;de&quot;>
Techniken: Metadaten Proprietäre Tags, die vom Webserver oder von einem Agent interpretiert werden können. XML zur Speicherung von Meta-Information Hidden Felder in Formularen <input type=hidden name=meta-info value=´´Sport, Fussball, x,y,...´´>
Techniken: Automatische Erfassung von MetaDaten Abhdsivfnrnvfr poevppopopovgt Fkmkmkgmg < rthhzzjz > Eruh kog W i Vektor aus N Merkmalen, die jedem Dokument zugeordnet werden i Index für Merkmal j Index für Dokument URL j
Add-on Programme Aktiv-X oder Java Objekte in Webseiten eingebaut Proprietäre Anwendungen und Protokolle Verzeichnisserver Browser-PlugIns Add-ons unterliegen den Beschränkungen  des Webs gar nicht oder nur teilweise.  Problem : Nur für beschränkten Userkreis  zugänglich
Techniken: Logdateien remotehost : Rechnername oder die Internetadresse des Klienten. rfc931 : Der Loginname des Nutzers authuser : Nutzerkennung [date] : Zeitpunkt der Transaktion  ''request''  Die an den Server gestellte Anfrage z.B.  ''GET /'' .  status : Zahlencode für den Abschlusszustand der Verbindung bytes : Menge der abgeschickten Daten in Bytes.  Das  World Wide Web  Consortium  (W3C)  hat folgendes Format als „Common Log Format'' definiert:  remotehost rfc931 authuser [date] &quot;request&quot; status bytes
Weitere Standarts W 3C  Extended  Log Files   Microsoft IIS Log Files   NCSA Common Log Files
Techniken: Logdateien W3C 132.180.237.26 - - [20/Dec/1999:15:26:39 +0100] &quot;GET /~c99f72/mmi10.shtml HTTP/1.0&quot; 200 208  132.180.237.25 - - [20/Dec/1999:15:26:47 +0100] &quot;GET /~c99f71/form.html HTTP/1.0&quot; 200 140  132.180.237.25 - - [20/Dec/1999:15:27:20 +0100] &quot;GET /~c99f71/kursleiter.php3?n=blw HTTP/1.0&quot; 200 188  132.180.237.26 - - [20/Dec/1999:15:27:32 +0100] &quot;GET /~c99f72/check.php3?n=fghgfg HTTP/1.0&quot; 200 88  132.180.237.26 - - [20/Dec/1999:15:27:56 +0100] &quot;GET /~c99f72/mmi10.shtml HTTP/1.0&quot; 200  . . . Dies sind längst nicht alle tatsächlich  vorliegenden Informationen !
Techniken: W3C Extended #Fields: date time c-ip cs-username s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken s-port cs-version cs(User-Agent) cs(Cookie) cs(Referer) 1998-09-17 09:08:11 192.168.100.5 - W3SVC2 EMU 192.168.100.5 GET /private/index.htm,+Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT),+- - 401 5 1403 269 16 80 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - -
 
 
 
 
Strategien zur Anpassung Reaktive Methoden Fragebögen Formulare Nicht Reaktive Methoden Logfile-Analysen & Click-Streams Session-IDs Cookies Collaborative Filtering Content-Based Filtering KI  Regelbasierte Systeme
Strategien: Explizite Abfrage
Strategien: Collaborative Filtering Durch gemeinschaftliches Filtern auf der Basis der Vorlieben anderer User werden Empfehlungen ausgesprochen.
 
Collaborative Filtering Titel1 Titel4 Titel3 Titel6 Titel1 Titel4 Titel2 Titel5 input Vorschlag Titel2 Titel5 Der Vorschlag lässt sich mit geeigneten statistischen Methoden berechnen
Collaborative Filtering Linearer Korrelations- Koeffizient (Pearson) Vorhersage für die  Bewertung eines  Merkmals i durch user a.
Strategie: Content Based Filtering Aus dem Verhalten des Users beim Besuch  einer  Website werden Schlüsse gezogen Dies funktioniert nur im Zusammenhang mit effektiven User-Tracking
Content-Based Filtering:  KI-Trainingsphase Abhdsivfnrnvfr poevppopopovgt Fkmkmkgmg < rthhzzjz > Eruh kog URL j Kodierung Input 0   uninteressant 1   interessant Wertung Dim N Neuronales  Netz Dim  N+1 W i . . . W i 1
Content-Based Filtering:  KI-Trainingsphase Die kategorisierten Seite bilden Punkte in N+1 dim Vektorraum Punkt j aus Website Punkt k aus Training Metrik ermöglicht Erkennung interessanter Seiten W i 1
Strategien: Verhaltensbeobachtung Stellen Informationen, die sie über den Kunden gesammelt haben, einem Satz von Regeln gegenüber Regeln haben „if-then“ Form Bsp. Videokasetten: Wenn der Kunde 8 Jahre alt ist und eine Komödie sucht, dann biete ihm Walt Disneys „Schweinchen Babe“ an.
Strategien: Regelbasierte Systeme Fertige statistische Profile werden aus Marktforschungsdaten gewonnen Diese werden mit den Informationen aus Tracking oder Userbefragung kombiniert. Der User wird in eine Gruppe kategorisiert Als Ergebnis bekommt der Nutzer angepasste Webprofile
Strategien: Regelbasierte Systeme User Input Tracking  System, Befragung Wissens basis Output lernen Interferenz maschine Wenn ein Kunde Babynahrung  bestellt,  hat er ein Baby Wenn er ein Baby hat  interessierter sich für ..........  usw.  Marktforschung
Beispiele Personalisierte Websites www . sapinfo . net www . aol . com www.yahoo. com www.amazon. com Dynamo Profile Station Story Server WebSell Wisewire AgentWare Wichtige Unternehmen Net Perceptions Siebel Systems Produkte LearnSesame Guestrack Intelliweb Firefly MS-Siteserver Objectstore One-To-One GroupLens
Quellen Übersichtsartikel Agentenbasiertes Suchen, Filtern und Klassifizieren von Informationsangeboten , Dipl. Kaufmann Frank Teuteberg, Preprint Europa Universität Viadrina Frankfurt Untersuchungen zur Personalisierung,  Dipl.-Ing. Michael Sonntag,  http://www.fim.uni-linz.ac.at/Publications/Aussendung10.98/Personalisierung.htm SWAMI, a framework for collaborative filetring algorithm development and evaluation , Danyel Fisher et al., University of Berkeley,  http://epoch.cs.berkeley.edu:8000/~mct/f99/paper.html Seminar zur Personalisierung im Internet  WS 00/01  , Universität Frankfurt, Lehrstuhl BWL ,  http://www.ecommerce.wiwi.uni-frankfurt.de:8080/lehre/00ws/seminar/seminararbeiten. html Viele Gesichter , c`t 2000, Heft 18, S88, Dietmar Janetzko, Dirk Zugemaier Wichtige Quelle für Forschungsarbeiten auf dem Gebiet des Collaborative Filtering: http://www.cs.umn.edu/Research/GroupLens/

Personalisierung

  • 1.
  • 2.
    Übersicht Begriffsdefinition GrundlegendeTechniken zur Identifizierung und Wiedererkennung Strategien zur Personalisierung Beispiele Quellen
  • 3.
    Definition Personalisierung Anpassungvon angebotenen Informationen an die Interessen des jeweiligen Betrachters. Aber auch: Sammlung von Informationen über das jeweilige Verhalten des Betrachters
  • 4.
    Einsatzbereiche NewsgroupsEmail Web In folgenden Bereichen des Internet bietet sich die Personalisierung an
  • 5.
    Problem: Identifizierung Umein Internetangebot zu personalisieren muss es zunächst Möglichkeiten geben zu identifizieren. Das Internet bietet hierzu keine eindeutige Lösung verschiedene Verfahren müssen in Kombination eingesetzt werden
  • 6.
    Problem: http:// Dashttp-Protokoll ist Verbindungslos. Das Web hat also kein Gedächtnis Get URL1 URL i Get URL2 Get URL3 . . . Im Prinzip ist für jede Webseite eine Verbindung notwendig
  • 7.
    Problem: NAT undProxies Hinter dem Gateway verliert sich die Spur
  • 8.
    Techniken: Identifizierung Benutzernameund Kennwort Email-Adresse Cookies URLs mit codierter Benutzerkennung IP-Auflösung Add-On Programme SSL-Certifikate
  • 9.
    Cookie setzen <html><head> <script language=JavaScript> function setCookie (name,value) { document.cookie=name+&quot;=&quot;+escape(value) } </script> </head> <body> <A HREF=&quot;javascript: setCookie ('testCookie','Hallo ich bin\'s') &quot;> ... Setze Cookie ... </A> </body> </html>
  • 10.
  • 11.
    Cookie lesen <html><head> <Script language=JavaScript> function getCookie() { alert(unescape(document.cookie)) } </Script> </head> <body onload= getCookie() > </body> </html>
  • 12.
    Cookies Pro Servermax. 20 Cookies Die Gesamtzahl der Cookies 300 Die maximale Größe 4KB Wird die Beschränkungen überschritten, wird das älteste Cookie gelöscht/überschrieben. Wird die Größe überschritten, wird zuerst der Wert und dann der Name des Cookies gelöscht.
  • 13.
    Techniken: Codierte URLsNach der Definition der persönlichen Einstellungen wird eine Eintrittswebsite als Favorit gespeichert: http://www.test.com/start.htm ?userid=215859 Über den Übergabestring kann der User beim Anklicken dieses Links wieder identifiziert werden
  • 14.
    Codierte URLs Bsp:ASP <% userid =Request.Querystring(´´userid´´) %>
  • 15.
    Techniken: Auslesen derUserdaten <% DbConn=Server.CreateObject(ADODB.Connection) DbConn.open (DSN=´´odbc-name´´) RS=Server.CreateObject(ADODB.RecordSet) SQL=´´Select * FROM userdaten where ID = ´´& userid RS.open DBConn, SQL %> Hallo <%=RS(´´Vorname´´)%> schön Sie wieder zusehen
  • 16.
    Techniken: Klassifizierung derDaten Die Personalisiert dargestellten Daten müssen vorher in aufwendiger Form klassifiziert werden. In der Regel manuell, da heute eine automatische Klassifizierung nur grobe Unterscheidungen liefert (Bsp: Sport, Wirtschaft, Politik.... Dokument wird mit Metadaten versehen, die die gewünschte Information enthalten oder extern in einem zugeordneten Datensatz gespeichert werden
  • 17.
    Techniken: Metadaten MetaTags des HTML-HEADERS <META name=&quot; DESCRIPTION &quot; content=&quot;Homepage, Politik, Wirtschaft, Sport, Vermischtes, News, Wetter“> <META name=&quot; KEYWORDS &quot; content=&quot;Homepage, Politik, Wirtschaft, Sport, Vermischtes, News, Wetter“> <META name=&quot; REVISIT-AFTER &quot; content=&quot;1 day&quot;> <META HTTP-EQUIV=&quot; CONTENT-LANGUAGE &quot; content=&quot;de&quot;>
  • 18.
    Techniken: Metadaten ProprietäreTags, die vom Webserver oder von einem Agent interpretiert werden können. XML zur Speicherung von Meta-Information Hidden Felder in Formularen <input type=hidden name=meta-info value=´´Sport, Fussball, x,y,...´´>
  • 19.
    Techniken: Automatische Erfassungvon MetaDaten Abhdsivfnrnvfr poevppopopovgt Fkmkmkgmg < rthhzzjz > Eruh kog W i Vektor aus N Merkmalen, die jedem Dokument zugeordnet werden i Index für Merkmal j Index für Dokument URL j
  • 20.
    Add-on Programme Aktiv-Xoder Java Objekte in Webseiten eingebaut Proprietäre Anwendungen und Protokolle Verzeichnisserver Browser-PlugIns Add-ons unterliegen den Beschränkungen des Webs gar nicht oder nur teilweise. Problem : Nur für beschränkten Userkreis zugänglich
  • 21.
    Techniken: Logdateien remotehost: Rechnername oder die Internetadresse des Klienten. rfc931 : Der Loginname des Nutzers authuser : Nutzerkennung [date] : Zeitpunkt der Transaktion ''request'' Die an den Server gestellte Anfrage z.B. ''GET /'' . status : Zahlencode für den Abschlusszustand der Verbindung bytes : Menge der abgeschickten Daten in Bytes. Das World Wide Web Consortium (W3C) hat folgendes Format als „Common Log Format'' definiert: remotehost rfc931 authuser [date] &quot;request&quot; status bytes
  • 22.
    Weitere Standarts W3C Extended Log Files Microsoft IIS Log Files NCSA Common Log Files
  • 23.
    Techniken: Logdateien W3C132.180.237.26 - - [20/Dec/1999:15:26:39 +0100] &quot;GET /~c99f72/mmi10.shtml HTTP/1.0&quot; 200 208 132.180.237.25 - - [20/Dec/1999:15:26:47 +0100] &quot;GET /~c99f71/form.html HTTP/1.0&quot; 200 140 132.180.237.25 - - [20/Dec/1999:15:27:20 +0100] &quot;GET /~c99f71/kursleiter.php3?n=blw HTTP/1.0&quot; 200 188 132.180.237.26 - - [20/Dec/1999:15:27:32 +0100] &quot;GET /~c99f72/check.php3?n=fghgfg HTTP/1.0&quot; 200 88 132.180.237.26 - - [20/Dec/1999:15:27:56 +0100] &quot;GET /~c99f72/mmi10.shtml HTTP/1.0&quot; 200 . . . Dies sind längst nicht alle tatsächlich vorliegenden Informationen !
  • 24.
    Techniken: W3C Extended#Fields: date time c-ip cs-username s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken s-port cs-version cs(User-Agent) cs(Cookie) cs(Referer) 1998-09-17 09:08:11 192.168.100.5 - W3SVC2 EMU 192.168.100.5 GET /private/index.htm,+Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT),+- - 401 5 1403 269 16 80 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+NT) - -
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
    Strategien zur AnpassungReaktive Methoden Fragebögen Formulare Nicht Reaktive Methoden Logfile-Analysen & Click-Streams Session-IDs Cookies Collaborative Filtering Content-Based Filtering KI Regelbasierte Systeme
  • 30.
  • 31.
    Strategien: Collaborative FilteringDurch gemeinschaftliches Filtern auf der Basis der Vorlieben anderer User werden Empfehlungen ausgesprochen.
  • 32.
  • 33.
    Collaborative Filtering Titel1Titel4 Titel3 Titel6 Titel1 Titel4 Titel2 Titel5 input Vorschlag Titel2 Titel5 Der Vorschlag lässt sich mit geeigneten statistischen Methoden berechnen
  • 34.
    Collaborative Filtering LinearerKorrelations- Koeffizient (Pearson) Vorhersage für die Bewertung eines Merkmals i durch user a.
  • 35.
    Strategie: Content BasedFiltering Aus dem Verhalten des Users beim Besuch einer Website werden Schlüsse gezogen Dies funktioniert nur im Zusammenhang mit effektiven User-Tracking
  • 36.
    Content-Based Filtering: KI-Trainingsphase Abhdsivfnrnvfr poevppopopovgt Fkmkmkgmg < rthhzzjz > Eruh kog URL j Kodierung Input 0 uninteressant 1 interessant Wertung Dim N Neuronales Netz Dim N+1 W i . . . W i 1
  • 37.
    Content-Based Filtering: KI-Trainingsphase Die kategorisierten Seite bilden Punkte in N+1 dim Vektorraum Punkt j aus Website Punkt k aus Training Metrik ermöglicht Erkennung interessanter Seiten W i 1
  • 38.
    Strategien: Verhaltensbeobachtung StellenInformationen, die sie über den Kunden gesammelt haben, einem Satz von Regeln gegenüber Regeln haben „if-then“ Form Bsp. Videokasetten: Wenn der Kunde 8 Jahre alt ist und eine Komödie sucht, dann biete ihm Walt Disneys „Schweinchen Babe“ an.
  • 39.
    Strategien: Regelbasierte SystemeFertige statistische Profile werden aus Marktforschungsdaten gewonnen Diese werden mit den Informationen aus Tracking oder Userbefragung kombiniert. Der User wird in eine Gruppe kategorisiert Als Ergebnis bekommt der Nutzer angepasste Webprofile
  • 40.
    Strategien: Regelbasierte SystemeUser Input Tracking System, Befragung Wissens basis Output lernen Interferenz maschine Wenn ein Kunde Babynahrung bestellt, hat er ein Baby Wenn er ein Baby hat interessierter sich für .......... usw. Marktforschung
  • 41.
    Beispiele Personalisierte Websiteswww . sapinfo . net www . aol . com www.yahoo. com www.amazon. com Dynamo Profile Station Story Server WebSell Wisewire AgentWare Wichtige Unternehmen Net Perceptions Siebel Systems Produkte LearnSesame Guestrack Intelliweb Firefly MS-Siteserver Objectstore One-To-One GroupLens
  • 42.
    Quellen Übersichtsartikel AgentenbasiertesSuchen, Filtern und Klassifizieren von Informationsangeboten , Dipl. Kaufmann Frank Teuteberg, Preprint Europa Universität Viadrina Frankfurt Untersuchungen zur Personalisierung, Dipl.-Ing. Michael Sonntag, http://www.fim.uni-linz.ac.at/Publications/Aussendung10.98/Personalisierung.htm SWAMI, a framework for collaborative filetring algorithm development and evaluation , Danyel Fisher et al., University of Berkeley, http://epoch.cs.berkeley.edu:8000/~mct/f99/paper.html Seminar zur Personalisierung im Internet WS 00/01 , Universität Frankfurt, Lehrstuhl BWL , http://www.ecommerce.wiwi.uni-frankfurt.de:8080/lehre/00ws/seminar/seminararbeiten. html Viele Gesichter , c`t 2000, Heft 18, S88, Dietmar Janetzko, Dirk Zugemaier Wichtige Quelle für Forschungsarbeiten auf dem Gebiet des Collaborative Filtering: http://www.cs.umn.edu/Research/GroupLens/