BIG DATA
– der Daten-Tsunami
Potenziale und Herausforderungen des Web
Mining am Bsp. eines Online-Shopping-Portals
Lynx Akademie
Dr. Christian Holsing, August 2013
Agenda
2
1. Entstehung, Relevanz und Definition
2. Anwendungsszenarien
3. Kritik
4. KDD-Prozess und Data Mining
5. Anwendung: Web Mining im E-Commerce
3
Portfolio E-Commerce@Lynx
CONSULTING TECHNOLOGY MARKETING
 Strategie-/ Managementberatung:
 Online-Geschäftsmodelle
 Multichannel-Retailing
 Social Commerce
 Konzeption und Design Online-Shop
und Features
 Research + Consumer Insights
(Erhebung von Primär- und
Sekundärdaten)
 Projektmanagement
 Interim Management
 Partnermanagement (Full Service)
 SMART UP:
 Coaching von Start-ups
 Business Development
 Gründercoaching KfW
 SAP E-Commerce und Web Channel
Experience Management
 Open Source Shop-Systeme:
• Apache OFBiz/
Lynx eCommerce Suite
• Magento
 Content-Management-Systeme
 Product Information Management
(PIM)
 Portallösungen
 Integration ERP
 Online-Marketing
 Strategie
 Implementierung (SEM,
SEO, Display, Affiliate,
Social Media, etc.)
 Shop-Check (Technik, Usability,
CRO)
 Web Intelligence:
 Web Analytics (Software,
Testing und Reporting)
 CRM E-Commerce (CRM,
Data Mining, Predictive
Analytics)
Ganzheitliche Beratung aus einer Hand!
www.lynx-ecommerce.de
4
Exzellent vernetzt!
Mitgliedschaften und Kooperationen
K5 Liga
Die K5 Liga ist von Exciting Commerce initiiert und vereint
Anbieter von Dienstleistungen und Agenturen, die den
Online-Handel in strategischen Wachstumsphasen unterstützen.
ECC-Club
Der ECC-Club ist vom E-Commerce-Center Köln (ECC) mit dem
Ziel initiiert, den Wissenstransfer zwischen betrieblicher Praxis
und Wissenschaft zu fördern und von den gewonnenen
Erkenntnissen zu profitieren.
Deutscher Marketing-Verband
Vertretung von mehr als 14.000 Führungskräften und
marketing-orientierten Unternehmen.
Lehrstuhl für BWL, insb. Marketing, Universität Hagen
Gemeinsames Forschungsprojekt ‚Affiliate Marketing‘
5
DER
ONLINE-TSUNAMI
ENTSTEHUNG, RELEVANZ
UND DEFINITION
BIG DATA: in aller Munde
6
 2011: McKinsey-Studie
 2011: Gartner-Hype-Cycle (2 Jahre Mainstream Adoption)
 2013: Berichte und Titel
 Süddeutsche Zeitung
 Die Zeit
 FAZ
 Spiegel (13. Mai)
Zusätzlich zu Transaktionsdaten fallen nun an:
7
Quelle: Bitkom 2012, S. 11
Weltweite Menge an Daten wächst rasant
8
Prognose von IDC:
 2012: 2,8 Zettabyte Datenvolumen
 2020: 40 Zettabyte Datenvolumen
Quellen: Bitkom 2012, S. 12 (Abb.); IDC 2012
BIG DATA: Definition
9
Quelle: Bitkom 2012
 Der Begriff Big Data wurde geprägt, um
 die wirtschaftlich sinnvolle Gewinnung und Nutzung
entscheidungsrelevanter Erkenntnisse
 aus qualitativ vielfältigen, unterschiedlich strukturierten
Informationen zu bezeichnen,
 die zudem einem schnellen Wandel unterliegen und in
bisher ungekanntem Umfang anfallen.
 Big Data umfasst Konzepte, Methoden, Technologien, IT-
Architekturen sowie Tools, mit denen sich die Informationsflut
in Bahnen lenken lässt.
10
DER
ONLINE-TSUNAMI
ANWENDUNGS-
SZENARIEN
BIG DATA: Herausforderungen (3 V‘s)
11
Volume
VarietyVelocity
BIG DATA
Quelle: Bitkom 2012
Der Markt für IT und Beratung wächst mit!
12
 Umsatz mit Big Data-Anwendungen steigt (Bitkom 2012)
 2012: 4,6 Mrd. Euro
 2016: 16,0 Mrd. Euro
 4,4 Mio. neue Jobs im IT-Bereich durch Big Data
(Gartner 2012)
BIG DATA: Anwendungen
13
 Kreditkarten-Missbrauch vorhersagen
 Algorithmen zum Verkehrsmanagement
 Bonitätsprüfung
 Individuelle Medizin
 Supermarkt: Kundenkarten, Absatzprognosen,
Warenkorbanalysen
 Online-Geschäftsmodelle: oft Big Data in Reinkultur
 Sammeln, Analysieren und Vermarkten von
Informationen  zielgenaue Werbung
 Google
 facebook
Hände hoch!
14
 Nutzer einer Kundenkarte?
 Meilen-Sammler?
 Klick auf Online-Banner?
 Profil in Sozialen Medien?
Mindestens einmal mit Ja geantwortet?
Glückwunsch, auch DU bist BIG DATA-Lieferant!
Immer mit Nein geantwortet?
Trotzdem Glückwunsch!
15
DER
ONLINE-TSUNAMIKRITIK
Kritik
16
 Datenerhebung und -auswertung erfolgt oft nach technischen
Aspekten
 Kritik der Sozialforscherin Danah Boyd:
 Größere Datenmengen sind nicht qualitativ besser (rep.
Stichprobe)
 "Was" und "Warum" seien zwei unterschiedliche Fragen
 Bei Interpretationen sei Vorsicht geboten
 Nur weil es verfügbar ist, sei es nicht ethisch
 Bedeutet Big Data das Ende aller Theorie?
 Chris Anderson, Chefredakteur WIRED:
Glaubwürdigkeitsproblem jeder wissenschaftlichen
Hypothese und jedes Modells bei gleichzeitiger
Echtzeitanalyse von Systemen. Korrelationen werden
wichtiger als kausale Erklärungsansätze.
17
DER
ONLINE-TSUNAMI
KDD UND
DATA MINING
Knowledge Discovery in Databases-Prozess
18
Selektion
Vor-
verarbeitung
Trans-
formation
Data Mining
Interpretation/
Evaluation
Daten Wissen
Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39:
„Knowledge discovery in databases is the non-trivial process
of identifying valid, novel, potentially useful, and ultimately
understandable patterns in data.“
Quelle: Eigene Abb. in Anl. an FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39
Data Mining
19
Data Mining = Datenmustererkennung
Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39:
„Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion
von Mustern aus Daten.“
 Daten werden als neues ‚Öl‘ oder ‚Gold‘ bezeichnet
 Parallele zum Goldrausch im 19. Jh.:
 Diejenigen, die Ausrüstung, Werkzeug und Expertise
verkaufen, machen sehr gute Geschäfte
 Google: In Stanford entwickelter Algorithmus von
BRIN AND PAGE 1998:
The Anatomy of a Large-Scale Hypertextual Web Search Engine
Web Mining
20
Web Mining
Web Content
Mining
Web Structure
Mining
Web Usage
Mining
 Web Content Mining: Extraktion von Wissen (oft auch Text Mining)
 Web Structure Mining: Analyse von Seitenstrukturen (Google PageRank)
 Web Usage Mining: „data mining activities with the goal to analyse and
predict the behaviour of websites’ users“(GROSSMANN/HUDEC/KURZAWA)
Quelle: eigene Abb. in Anl. an ZAÏANE 1999
Informationsgewinnung im Internet
21
 Logfiles:
 indirekte Beobachtung
 die beobachtete Person ist sich der Beobachtung nicht
bewusst ( kein Beobachtungseffekt)
Methoden der
Informationsgewinnung
im Internet
Primärforschung
Online-
Befragung
Online-
Beobachtung
Online-
Experiment
Online-Panel
Sekundärforschung
Online-
Datenbanken
Quelle: Eigene Abb. in Anl. an FRITZ 2004
Entscheidungsbaum im Web Usage Mining
Bsp.: Kauf im Online-Shop
22
NeinJa
< 3 Minuten> 3 Minuten
NeinJa
Knoten 0
3% Kauf
97% Nicht-Kauf
Knoten 1
6% Kauf
94% Nicht-Kauf
Knoten 3
9% Kauf
91% Nicht-Kauf
Knoten 5
11% Kauf
89% Nicht-Kauf
Knoten 6
8% Kauf
92% Nicht-Kauf
Knoten 4
5% Kauf
95% Nicht-Kauf
Knoten 2
2% Kauf
98% Nicht-Kauf
Sonderangebote
Verweildauer
Wochentag
Ziel: Datenobjekte
aufgrund der Ausprägungen
von unabhängigen
Variablen sukzessive in
möglichst homogene
Teilmengen mit jeweils
ähnlichen Werten der
Zielgröße aufteilen
 Generierung
Klassifikationsregeln
Wurzel-
knoten
Quelle: HOLSING 2012
23
DER
ONLINE-TSUNAMI
ANWENDUNG
WEB MINING
Leitfrage der exemplarischen Untersuchung
 Welche Faktoren, insbesondere welche Social-
Shopping-Funktionen, beeinflussen vorökono-
mische und ökonomische Zielgrößen in Social-
Shopping-Communities?
24
Stimuli Reaktion
(unabhängige Variablen) (abhängige Variable)
Funktionen
Charakteristika
des Käufers
Kaufentscheidungs-
prozess
Untersuchte Zielgrößen
des Kaufverhaltens
z. B.: kulturelle Problemerkennung Click-Out (Konversion)
Startseite soziale Informationssuche Verweildauer
Suchfilter persönliche Informationsbewertung
Ratings psychologische Entscheidung
Social Shopping-Funktionen Nachkaufverhalten
beobachtbar beobachtbar
Black Box (Organismus) des Käufers
nicht beobachtbar
Quelle: Holsing 2012
Untersuchungsobjekt
25
 Logfiles einer führenden Social Shopping
Community im deutschsprachigen Raum
 Kategorien: Mode, Möbel und Lifestyle
 Zielgruppe: Frauen
 Ca. 1,5 Mio. Produkte gelistet
 Ca. 600 teilnehmende Online-Shops
S-O-R-Modell des Kaufverhaltens
(KOTLER/ARMSTRONG/WONG/SAUNDERS 2011)
26
Reaktion
Marketingstimuli Umfeldstimuli Person
Kaufentscheidungs-
prozess
Kaufentscheidungen
Produkt konjunkturelle kulturelle Problemerkennung Wahl eines Produkts
Preis technologische soziale Informationssuche Wahl einer Marke
Distribution politische persönliche Informationsbewertung Wahl eines Händlers
Kommunikation kulturelle psychologische Entscheidung Kaufzeitpunkt
Nachkaufverhalten Kaufmenge
beobachtbar
Exogene Stimuli Black Box (Organismus) des Käufers
beobachtbar nicht beobachtbar
Logfile-Analyse: Daten und Prozess
27
 Tägliche Datenübermittlung an Server
 Zeitraum: 6 Monate
 Tracking für jeden Besuch: aufgerufene Seiten,
Dauer, etc.
 Limitationen:
 Keine Wiederholungsbesuche
 Kein Tracking in partizipierenden Online-Shops
2009-05-21 00:43:59,689|CLICK_OUT|0A7916144EAF0AC292515EB34A0D
9F0C|Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET
CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30;
InfoPath.1)|77.188.xx.xx|NOBOT|zX+itsFeZEG2ss4f|NOT-LOGGED-
IN|||/search.searchresultcontainer.clickoutbutton.clickoutform/
2331697/4681401|2331697|Mode/Bekleidung/Kleider
Logfile-Analyse: Orientierung am KDD-Prozess
28
 Software: SAS Enterprise Miner 6.2
 Pre-processing:
 Sessions: 7,8 Mio.  2,9 Mio.
 Ziel: Charakterisierung Sessions
 4 VariablenkategorienDaten-
aufbereitung
Logfiles
Mustererkennung:
-Deskriptiv
-Segmentierung
(Prognose-)
Modellierung
Beurteilung und
Interpretation
Deskriptive Statistiken
29
Variablenkategorie Variable Mittelwert SD Minimum Maximum Median
Generell
LOG_IN 0,01 0,11 0,00 1,00 0,00
KAMPAGNE 0,68 0,47 0,00 1,00 1,00
WOCHENENDE 0,29 0,45 0,00 1,00 0,00
DAUER 201,13 324,09 2,00 2.699,00 72,00
DAUER_KLICK 34,16 58,34 1,00 1.302,00 17,00
PRODUKT 0,91 2,03 0,00 664,00 0,00
PRODUKT_DAUER 17,28 60,18 0,00 2.261,00 0,00
START 0,09 0,45 0,00 130,00 0,00
Suchfunktionen
SUCHFELD 1,15 2,55 0,00 520,00 0,00
SUCHE_GESCHLECHT 0,73 4,02 0,00 430,00 0,00
SUCHE_KATEGORIE 1,48 6,67 0,00 557,00 0,00
SUCHE_MARKE 0,31 2,49 0,00 369,00 0,00
SUCHE_PREIS 0,12 1,69 0,00 220,00 0,00
SUCHE_SALES 0,05 0,96 0,00 234,00 0,00
SUCHE_SHOP 0,12 0,91 0,00 178,00 0,00
Social Shopping
RATING_PROD 13,81 32,36 0,00 100,00 0,00
RATING_SHOP 13,66 32,26 0,00 100,00 0,00
LISTE 0,02 0,23 0,00 112,00 0,00
STYLE 0,01 0,16 0,00 95,00 0,00
TAG 0,03 0,57 0,00 183,00 0,00
PROFIL 0,01 0,23 0,00 121,00 0,00
Transaktion CLICK_OUT 0,41 0,49 0,00 1,00 0,00
Logfile-Analyse: Deskriptive Statistiken
30
 Großteil der Besuche: Wochentag (71,12%)
 Sonntags (16,45%) und montags (16,13%) am höchsten
 Verlauf: Sinken der Besucherzahlen von So. bis Sa.
Logfile-Analyse: Deskriptive Statistiken II
31
Variable HOUR
 Anstieg von morgens bis zur
Spitze um ca. 21:00 Uhr
 Besuche steigen im
Tagesverlauf von morgens bis
zur Spitze am Abend an, wobei
zwischen 21:00 Uhr und 22:00
Uhr die meisten Besuche
stattfinden (8,42 Prozent)
 Mithilfe dieser Auswertungen
könnte z. B. ein Zeitpunkt
festgelegt werden, an dem
bestimmte Neuigkeiten online
gestellt werden, z. B. zur
Hauptnutzungszeit
Logfile-Analyse: Angewandte Methoden
32
 Angewandte Methoden:
 Logistische Regression
 Entscheidungsbaum
 Multi Layer Perceptron (Form eines Künstlichen
Neuronalen Netzes)
 Fokus auf logistischer Regression, da hiermit eine
Bestimmung der Wirkungsrichtung der Einfluss-
größen durch die Koeffizienten möglich ist
Logistische Regression
33
 Annahme einer Variablen Z als Linearkombination
der Prädiktoren Xi (aggregierte Einflussgröße):


n
j
jj xz
1
0 *
Logfile-Analyse: Aufbereitete Variablen und
Hypothesen (Zielgröße Click-Out)
34
Variablenkategorie Variable
Ausprägungen/
Wertebereich
Beschreibung Hypothese
Erwartetes
Vorzeichen
Generell
LOG_IN 0: nein, 1: ja Log-In eines Nutzers Kontrollvar. –
WOCHENENDE 0: nein, 1: ja Unterscheidung Wochentag/Wochenende Kontrollvar. –
DAUER_KLICK 1, 00–2.699,99 Durchschnittl. Verweildauer in Sek. je Seitenaufruf H1 +
PRODUKT 0, 1, 2, … Aufruf einer Produktdetailseite H2 –
START 0, 1, 2, … Aufruf der Startseite (Homepage/Index) H3 –
Suchfunktionen
SUCHFELD 0, 1, 2, … Nutzung Suchfeld H4a –
SUCHE_GESCHLECHT 0, 1, 2, … Nutzung Filter Geschlecht H4b –
SUCHE_KATEGORIE 0, 1, 2, … Nutzung Filter Kategorie H4c –
SUCHE_MARKE 0, 1, 2, … Nutzung Filter Marke H4d –
SUCHE_PREIS 0, 1, 2, … Nutzung Filter Preis H4e –
SUCHE_SALES 0, 1, 2, … Nutzung Filter Sales H4f –
SUCHE_SHOP 0, 1, 2, … Nutzung Filter Shop H4g –
Social Shopping
RATING_PROD 0,00–1,00
Anteil Produktdetailseiten, bei denen ein Produkt-
Rating größer/gleich 3 Sterne (60 %) vorhanden ist
H5a +
RATING_SHOP 0,00–1,00
Anteil Produktdetailseiten, bei denen ein Shop-Rating
größer/gleich 3 Sterne (60 %) vorhanden ist
H5b +
LISTE 0, 1, 2, … Aufruf einer Liste H6a –
STYLE 0, 1, 2, … Aufruf eines Styles H6b –
TAG 0, 1, 2, … Nutzung eines Tags (nutzergeneriert) H7 +
PROFIL 0, 1, 2, … Aufruf einer Profilseite H8 –
Transaktion CLICK_OUT 0: nein, 1: ja Weiterleitung zu einem partizipierenden Online-Shop Zielgröße
Quelle: Holsing 2012
Logistische Regressionsanalyse:
Zielgröße Click-Out (0/1)
35
Variable B
Standard-
fehler
Wald Chi-
Square
Exp(B)
95 % Intervall
Untergrenze
95 % Intervall
Obergrenze
Hyp.
bewährt?
Konstante 3,675 0,023 25.215,121*
Generell
LOG_IN (=0) –4,996 0,023 46.938,893* 0,007 0,006 0,007 j
WOCHENENDE (=0) –0,028 0,003 99,669* 0,972 0,967 0,978 j
DAUER_KLICK 0,297 0,001 42.665,871* 1,346 1,343 1,350 j
PRODUKT 0,086 0,003 693,366* 1,090 1,083 1,097 n
START –1,840 0,011 29.026,595* 0,159 0,156 0,162 j
Such-
funktionen
SUCHFELD –0,387 0,002 30.750,964* 0,679 0,676 0,682 j
SUCHE_GESCHLECHT 0,172 0,003 4.751,073* 1,188 1,182 1,194 n
SUCHE_KATEGORIE –0,012 0,002 42,034* 0,988 0,985 0,992 j
SUCHE_MARKE 0,111 0,004 920,943* 1,117 1,109 1,125 n
SUCHE_PREIS 0,310 0,006 2.687,315* 1,363 1,348 1,380 n
SUCHE_SALES 0,212 0,008 675,678* 1,236 1,217 1,256 n
SUCHE_SHOP –0,107 0,006 365,097* 0,899 0,889 0,909 j
Social
Shopping
RATING_PRODUKT 0,003 0,001 10,624** 1,003 1,001 1,005 j
RATING_SHOP 0,213 0,001 48.530,326* 1,238 1,236 1,240 j
LISTE –1,862 0,044 1.780,645* 0,155 0,142 0,169 j
STYLE –0,652 0,021 970,791* 0,521 0,500 0,543 j
TAG –0,222 0,011 394,887* 0,801 0,783 0,819 n
PROFIL –2,584 0,040 4.145,029* 0,075 0,070 0,082 j
Anm.: * p < 0,0001; ** p < 0,001; Likelihood Ratio-Test: χ2(18) = 264.030,374; p < 0,0001; Pseudo-R2 = 0,07; Klassifikationsgüte = 63,4%
Quelle: Holsing 2012
Überblick: Zielgrößen Click-Out und Verweildauer
36
Startseite
Click-Out
Log-In
Besuch Wochenende
Suchfunktionen:
Geschlecht, Marke,
Preis und Sales
Rating
(Produkt und Shop)
Social-Shopping-
Funktionen: Liste,
Profil, Style und Tag
Suchfunktionen:
Suchfeld, Kategorie
und Shop
Verweildauer/Seite
+
–
+
+
+
+
–
+
–
*: bis auf Log-In sind Koeffizienten
signifikant positiv. Verweildauer/
Seite und Rating nicht untersucht.
Stimuli
(unabh. Var.)
Reaktion
(abh. Var.)
Verweildauer
gesamt
+
+ *
Produktdetailseite
 Results also conform
to the following
descriptive results
 Avg. visit duration of
logged-in users: 125
sec.; non-logged-in
users: 202 sec.
 Visit duration in
sessions, in which at
least one list or style
is considered, is
56% higher
 The number of clicks
in such sessions is
substantially higher;
on average 3.7
clicks more
 Click-out rate:
29.9% (overall 41%)
Entscheidungsbaum
37
> 4,224<= 4,224
> 4,916<= 4,916> 4,554<= 4,554 > 0,347
> 5,939> 0,347
> 0,896
<= 5,939 Nein
Nein
Ja<= 0,347
<= 0,896
<= 4,959 > 4,959
<= 0,347
<= 0,896 > 0,896
<= 0,690 > 0,690
Ja
PRODUKT_DAUER
DAUER PRODUKT
SUCHFELD
LOG_IN
DAUER_KLICK SUCHFELD DAUER
PRODUKT_DAUERKAMPAGNEDAUERPRODUKT
7 (n=692.612)
0: 68,66%
1: 31,37%
Quelle: Holsing 2012
Vergleich der Ergebnisse
38
Variablenkategorie Variable Log. Regr. Entscheidungsbaum MLP
Generell
LOG_IN +++ + +/++
KAMPAGNE n. u. + +
WOCHENENDE + o +
DAUER n. u. ++/+++ +++
DAUER_KLICK +++ ++ +++
PRODUKT +/++ ++/+++ +++
MAX_PRODUKT n. u. o ++
PRODUKT_DAUER n. u. +++ ++/+++
START +++ o +++
Suchfunktionen
SUCHFELD +++ ++ +++
SUCHE_GESCHLECHT ++ o ++
SUCHE_KATEGORIE + o ++
SUCHE_MARKE ++ o ++
SUCHE_PREIS ++ o ++
SUCHE_SALES ++ o ++
SUCHE_SHOP + o +
Social Shopping
RATING_PROD + o +
RATING_SHOP ++ o +
LISTE ++ o ++
STYLE +++ o ++
TAG ++ o ++
PROFIL + o ++
+++ starker Einfluss, ++ mittlerer Einfluss, + schwacher Einfluss, o kein Einfluss, n. u.: nicht untersucht
Vergleich der Methoden
39
 Logistische Regression: Anforderungen an Modellprämissen höher,
empfindlich gegenüber Ausreißern, Signifikanzniveau vorhanden
 Unabhängige Variablen: Anzahl verschieden
 Methoden ergänzen sich
Kriterium
Logistische
Regression
Entscheidungsbaum Neuronales Netz
Anzahl Input-Variablen 18 22 22
Variablen im Modell 18 7 22
Klassifikationsgüte in % 63,40 71,58 73,24
Verständlichkeit
Bestimmung der
Wirkungsrichtung
der Einflussgrößen
durch (Effekt-)
Koeffizienten
Baumstruktur ist intuitiv
verständlich (hier
Klickprofile)
Black-Box-Charakter
Quelle: Holsing 2012
Implikationen für das Management einer SSC
40
 Anzahl der Community-Mitglieder erhöhen
 Abgabe von Ratings fördern
 Trotz geringer Nutzung: Social Shopping-Funktionen wirken
signifikant auf Click-Out (negativ) und Stickiness (positiv)
 Social Shopping-Funktionen separieren und wg. mögl. Reaktanz erklären
 Aber: Social Shopping-Funktionen können wichtig sein für:
 Attraktivität (Akquise und Loyalität)
 Förderung Stöbern
 Impulskäufe
 Werbeerlöse (z.B. Banner und Textanzeigen (AdSense))
 Verweildauer erhöhen (Differenzierung stöbern vs zielgerichtet)
 Logfiles für Real-Time Analytics/ CRM/ Business Intelligence
Implikationen für das Management von
Online-Shops
41
 Abgabe von Ratings fördern (für eigenen Shop/ Produkte)
 Konzeption kanalspezifischer Pricing-Strategien
 Aufmerksamkeit durch UGC (Listen, Styles)
 Bsp.: Style Contests von Coach, Nike und Gucci
 Coach: Innerhalb 1 Woche: 3.692 Styles, > 100.000 Likes,
> 200.000 Aufrufe  Word-of-Mouth at it’s best!
 Listen und Styles als Forecasting Tool nutzen
 Integration in ‚Social CRM Strategy‘
 Text Mining von nutzergenerierten Inhalten
 Identifizierung Lead User
 Tracking Conversion Rates
Fazit
42
 Logfile-Analyse liefert neuartige Erkenntnisse zum
Kaufverhalten in SSCs
 Grenzen: Logfiles stammen aus einer frühen
Entwicklungsphase, keine Wiederholungsbesuche erfasst,
Inhalt der Seiten nicht enthalten
 Mögliche weitere Analyse: Einbezug von tatsächlichen
Käufen, Sequenzanalyse
 Ökonomische Relevanz von BIG DATA steigt
DANKE FÜR IHRE
AUFMERKSAMKEIT!
FRAGEN?
KOMMENTARE?
www.lynx-ecommerce.de

BIG DATA im E-Commerce - Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals

  • 1.
    BIG DATA – derDaten-Tsunami Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals Lynx Akademie Dr. Christian Holsing, August 2013
  • 2.
    Agenda 2 1. Entstehung, Relevanzund Definition 2. Anwendungsszenarien 3. Kritik 4. KDD-Prozess und Data Mining 5. Anwendung: Web Mining im E-Commerce
  • 3.
    3 Portfolio E-Commerce@Lynx CONSULTING TECHNOLOGYMARKETING  Strategie-/ Managementberatung:  Online-Geschäftsmodelle  Multichannel-Retailing  Social Commerce  Konzeption und Design Online-Shop und Features  Research + Consumer Insights (Erhebung von Primär- und Sekundärdaten)  Projektmanagement  Interim Management  Partnermanagement (Full Service)  SMART UP:  Coaching von Start-ups  Business Development  Gründercoaching KfW  SAP E-Commerce und Web Channel Experience Management  Open Source Shop-Systeme: • Apache OFBiz/ Lynx eCommerce Suite • Magento  Content-Management-Systeme  Product Information Management (PIM)  Portallösungen  Integration ERP  Online-Marketing  Strategie  Implementierung (SEM, SEO, Display, Affiliate, Social Media, etc.)  Shop-Check (Technik, Usability, CRO)  Web Intelligence:  Web Analytics (Software, Testing und Reporting)  CRM E-Commerce (CRM, Data Mining, Predictive Analytics) Ganzheitliche Beratung aus einer Hand! www.lynx-ecommerce.de
  • 4.
    4 Exzellent vernetzt! Mitgliedschaften undKooperationen K5 Liga Die K5 Liga ist von Exciting Commerce initiiert und vereint Anbieter von Dienstleistungen und Agenturen, die den Online-Handel in strategischen Wachstumsphasen unterstützen. ECC-Club Der ECC-Club ist vom E-Commerce-Center Köln (ECC) mit dem Ziel initiiert, den Wissenstransfer zwischen betrieblicher Praxis und Wissenschaft zu fördern und von den gewonnenen Erkenntnissen zu profitieren. Deutscher Marketing-Verband Vertretung von mehr als 14.000 Führungskräften und marketing-orientierten Unternehmen. Lehrstuhl für BWL, insb. Marketing, Universität Hagen Gemeinsames Forschungsprojekt ‚Affiliate Marketing‘
  • 5.
  • 6.
    BIG DATA: inaller Munde 6  2011: McKinsey-Studie  2011: Gartner-Hype-Cycle (2 Jahre Mainstream Adoption)  2013: Berichte und Titel  Süddeutsche Zeitung  Die Zeit  FAZ  Spiegel (13. Mai)
  • 7.
    Zusätzlich zu Transaktionsdatenfallen nun an: 7 Quelle: Bitkom 2012, S. 11
  • 8.
    Weltweite Menge anDaten wächst rasant 8 Prognose von IDC:  2012: 2,8 Zettabyte Datenvolumen  2020: 40 Zettabyte Datenvolumen Quellen: Bitkom 2012, S. 12 (Abb.); IDC 2012
  • 9.
    BIG DATA: Definition 9 Quelle:Bitkom 2012  Der Begriff Big Data wurde geprägt, um  die wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse  aus qualitativ vielfältigen, unterschiedlich strukturierten Informationen zu bezeichnen,  die zudem einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang anfallen.  Big Data umfasst Konzepte, Methoden, Technologien, IT- Architekturen sowie Tools, mit denen sich die Informationsflut in Bahnen lenken lässt.
  • 10.
  • 11.
    BIG DATA: Herausforderungen(3 V‘s) 11 Volume VarietyVelocity BIG DATA Quelle: Bitkom 2012
  • 12.
    Der Markt fürIT und Beratung wächst mit! 12  Umsatz mit Big Data-Anwendungen steigt (Bitkom 2012)  2012: 4,6 Mrd. Euro  2016: 16,0 Mrd. Euro  4,4 Mio. neue Jobs im IT-Bereich durch Big Data (Gartner 2012)
  • 13.
    BIG DATA: Anwendungen 13 Kreditkarten-Missbrauch vorhersagen  Algorithmen zum Verkehrsmanagement  Bonitätsprüfung  Individuelle Medizin  Supermarkt: Kundenkarten, Absatzprognosen, Warenkorbanalysen  Online-Geschäftsmodelle: oft Big Data in Reinkultur  Sammeln, Analysieren und Vermarkten von Informationen  zielgenaue Werbung  Google  facebook
  • 14.
    Hände hoch! 14  Nutzereiner Kundenkarte?  Meilen-Sammler?  Klick auf Online-Banner?  Profil in Sozialen Medien? Mindestens einmal mit Ja geantwortet? Glückwunsch, auch DU bist BIG DATA-Lieferant! Immer mit Nein geantwortet? Trotzdem Glückwunsch!
  • 15.
  • 16.
    Kritik 16  Datenerhebung und-auswertung erfolgt oft nach technischen Aspekten  Kritik der Sozialforscherin Danah Boyd:  Größere Datenmengen sind nicht qualitativ besser (rep. Stichprobe)  "Was" und "Warum" seien zwei unterschiedliche Fragen  Bei Interpretationen sei Vorsicht geboten  Nur weil es verfügbar ist, sei es nicht ethisch  Bedeutet Big Data das Ende aller Theorie?  Chris Anderson, Chefredakteur WIRED: Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse von Systemen. Korrelationen werden wichtiger als kausale Erklärungsansätze.
  • 17.
  • 18.
    Knowledge Discovery inDatabases-Prozess 18 Selektion Vor- verarbeitung Trans- formation Data Mining Interpretation/ Evaluation Daten Wissen Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39: „Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.“ Quelle: Eigene Abb. in Anl. an FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39
  • 19.
    Data Mining 19 Data Mining= Datenmustererkennung Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39: „Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten.“  Daten werden als neues ‚Öl‘ oder ‚Gold‘ bezeichnet  Parallele zum Goldrausch im 19. Jh.:  Diejenigen, die Ausrüstung, Werkzeug und Expertise verkaufen, machen sehr gute Geschäfte  Google: In Stanford entwickelter Algorithmus von BRIN AND PAGE 1998: The Anatomy of a Large-Scale Hypertextual Web Search Engine
  • 20.
    Web Mining 20 Web Mining WebContent Mining Web Structure Mining Web Usage Mining  Web Content Mining: Extraktion von Wissen (oft auch Text Mining)  Web Structure Mining: Analyse von Seitenstrukturen (Google PageRank)  Web Usage Mining: „data mining activities with the goal to analyse and predict the behaviour of websites’ users“(GROSSMANN/HUDEC/KURZAWA) Quelle: eigene Abb. in Anl. an ZAÏANE 1999
  • 21.
    Informationsgewinnung im Internet 21 Logfiles:  indirekte Beobachtung  die beobachtete Person ist sich der Beobachtung nicht bewusst ( kein Beobachtungseffekt) Methoden der Informationsgewinnung im Internet Primärforschung Online- Befragung Online- Beobachtung Online- Experiment Online-Panel Sekundärforschung Online- Datenbanken Quelle: Eigene Abb. in Anl. an FRITZ 2004
  • 22.
    Entscheidungsbaum im WebUsage Mining Bsp.: Kauf im Online-Shop 22 NeinJa < 3 Minuten> 3 Minuten NeinJa Knoten 0 3% Kauf 97% Nicht-Kauf Knoten 1 6% Kauf 94% Nicht-Kauf Knoten 3 9% Kauf 91% Nicht-Kauf Knoten 5 11% Kauf 89% Nicht-Kauf Knoten 6 8% Kauf 92% Nicht-Kauf Knoten 4 5% Kauf 95% Nicht-Kauf Knoten 2 2% Kauf 98% Nicht-Kauf Sonderangebote Verweildauer Wochentag Ziel: Datenobjekte aufgrund der Ausprägungen von unabhängigen Variablen sukzessive in möglichst homogene Teilmengen mit jeweils ähnlichen Werten der Zielgröße aufteilen  Generierung Klassifikationsregeln Wurzel- knoten Quelle: HOLSING 2012
  • 23.
  • 24.
    Leitfrage der exemplarischenUntersuchung  Welche Faktoren, insbesondere welche Social- Shopping-Funktionen, beeinflussen vorökono- mische und ökonomische Zielgrößen in Social- Shopping-Communities? 24 Stimuli Reaktion (unabhängige Variablen) (abhängige Variable) Funktionen Charakteristika des Käufers Kaufentscheidungs- prozess Untersuchte Zielgrößen des Kaufverhaltens z. B.: kulturelle Problemerkennung Click-Out (Konversion) Startseite soziale Informationssuche Verweildauer Suchfilter persönliche Informationsbewertung Ratings psychologische Entscheidung Social Shopping-Funktionen Nachkaufverhalten beobachtbar beobachtbar Black Box (Organismus) des Käufers nicht beobachtbar Quelle: Holsing 2012
  • 25.
    Untersuchungsobjekt 25  Logfiles einerführenden Social Shopping Community im deutschsprachigen Raum  Kategorien: Mode, Möbel und Lifestyle  Zielgruppe: Frauen  Ca. 1,5 Mio. Produkte gelistet  Ca. 600 teilnehmende Online-Shops
  • 26.
    S-O-R-Modell des Kaufverhaltens (KOTLER/ARMSTRONG/WONG/SAUNDERS2011) 26 Reaktion Marketingstimuli Umfeldstimuli Person Kaufentscheidungs- prozess Kaufentscheidungen Produkt konjunkturelle kulturelle Problemerkennung Wahl eines Produkts Preis technologische soziale Informationssuche Wahl einer Marke Distribution politische persönliche Informationsbewertung Wahl eines Händlers Kommunikation kulturelle psychologische Entscheidung Kaufzeitpunkt Nachkaufverhalten Kaufmenge beobachtbar Exogene Stimuli Black Box (Organismus) des Käufers beobachtbar nicht beobachtbar
  • 27.
    Logfile-Analyse: Daten undProzess 27  Tägliche Datenübermittlung an Server  Zeitraum: 6 Monate  Tracking für jeden Besuch: aufgerufene Seiten, Dauer, etc.  Limitationen:  Keine Wiederholungsbesuche  Kein Tracking in partizipierenden Online-Shops 2009-05-21 00:43:59,689|CLICK_OUT|0A7916144EAF0AC292515EB34A0D 9F0C|Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; InfoPath.1)|77.188.xx.xx|NOBOT|zX+itsFeZEG2ss4f|NOT-LOGGED- IN|||/search.searchresultcontainer.clickoutbutton.clickoutform/ 2331697/4681401|2331697|Mode/Bekleidung/Kleider
  • 28.
    Logfile-Analyse: Orientierung amKDD-Prozess 28  Software: SAS Enterprise Miner 6.2  Pre-processing:  Sessions: 7,8 Mio.  2,9 Mio.  Ziel: Charakterisierung Sessions  4 VariablenkategorienDaten- aufbereitung Logfiles Mustererkennung: -Deskriptiv -Segmentierung (Prognose-) Modellierung Beurteilung und Interpretation
  • 29.
    Deskriptive Statistiken 29 Variablenkategorie VariableMittelwert SD Minimum Maximum Median Generell LOG_IN 0,01 0,11 0,00 1,00 0,00 KAMPAGNE 0,68 0,47 0,00 1,00 1,00 WOCHENENDE 0,29 0,45 0,00 1,00 0,00 DAUER 201,13 324,09 2,00 2.699,00 72,00 DAUER_KLICK 34,16 58,34 1,00 1.302,00 17,00 PRODUKT 0,91 2,03 0,00 664,00 0,00 PRODUKT_DAUER 17,28 60,18 0,00 2.261,00 0,00 START 0,09 0,45 0,00 130,00 0,00 Suchfunktionen SUCHFELD 1,15 2,55 0,00 520,00 0,00 SUCHE_GESCHLECHT 0,73 4,02 0,00 430,00 0,00 SUCHE_KATEGORIE 1,48 6,67 0,00 557,00 0,00 SUCHE_MARKE 0,31 2,49 0,00 369,00 0,00 SUCHE_PREIS 0,12 1,69 0,00 220,00 0,00 SUCHE_SALES 0,05 0,96 0,00 234,00 0,00 SUCHE_SHOP 0,12 0,91 0,00 178,00 0,00 Social Shopping RATING_PROD 13,81 32,36 0,00 100,00 0,00 RATING_SHOP 13,66 32,26 0,00 100,00 0,00 LISTE 0,02 0,23 0,00 112,00 0,00 STYLE 0,01 0,16 0,00 95,00 0,00 TAG 0,03 0,57 0,00 183,00 0,00 PROFIL 0,01 0,23 0,00 121,00 0,00 Transaktion CLICK_OUT 0,41 0,49 0,00 1,00 0,00
  • 30.
    Logfile-Analyse: Deskriptive Statistiken 30 Großteil der Besuche: Wochentag (71,12%)  Sonntags (16,45%) und montags (16,13%) am höchsten  Verlauf: Sinken der Besucherzahlen von So. bis Sa.
  • 31.
    Logfile-Analyse: Deskriptive StatistikenII 31 Variable HOUR  Anstieg von morgens bis zur Spitze um ca. 21:00 Uhr  Besuche steigen im Tagesverlauf von morgens bis zur Spitze am Abend an, wobei zwischen 21:00 Uhr und 22:00 Uhr die meisten Besuche stattfinden (8,42 Prozent)  Mithilfe dieser Auswertungen könnte z. B. ein Zeitpunkt festgelegt werden, an dem bestimmte Neuigkeiten online gestellt werden, z. B. zur Hauptnutzungszeit
  • 32.
    Logfile-Analyse: Angewandte Methoden 32 Angewandte Methoden:  Logistische Regression  Entscheidungsbaum  Multi Layer Perceptron (Form eines Künstlichen Neuronalen Netzes)  Fokus auf logistischer Regression, da hiermit eine Bestimmung der Wirkungsrichtung der Einfluss- größen durch die Koeffizienten möglich ist
  • 33.
    Logistische Regression 33  Annahmeeiner Variablen Z als Linearkombination der Prädiktoren Xi (aggregierte Einflussgröße):   n j jj xz 1 0 *
  • 34.
    Logfile-Analyse: Aufbereitete Variablenund Hypothesen (Zielgröße Click-Out) 34 Variablenkategorie Variable Ausprägungen/ Wertebereich Beschreibung Hypothese Erwartetes Vorzeichen Generell LOG_IN 0: nein, 1: ja Log-In eines Nutzers Kontrollvar. – WOCHENENDE 0: nein, 1: ja Unterscheidung Wochentag/Wochenende Kontrollvar. – DAUER_KLICK 1, 00–2.699,99 Durchschnittl. Verweildauer in Sek. je Seitenaufruf H1 + PRODUKT 0, 1, 2, … Aufruf einer Produktdetailseite H2 – START 0, 1, 2, … Aufruf der Startseite (Homepage/Index) H3 – Suchfunktionen SUCHFELD 0, 1, 2, … Nutzung Suchfeld H4a – SUCHE_GESCHLECHT 0, 1, 2, … Nutzung Filter Geschlecht H4b – SUCHE_KATEGORIE 0, 1, 2, … Nutzung Filter Kategorie H4c – SUCHE_MARKE 0, 1, 2, … Nutzung Filter Marke H4d – SUCHE_PREIS 0, 1, 2, … Nutzung Filter Preis H4e – SUCHE_SALES 0, 1, 2, … Nutzung Filter Sales H4f – SUCHE_SHOP 0, 1, 2, … Nutzung Filter Shop H4g – Social Shopping RATING_PROD 0,00–1,00 Anteil Produktdetailseiten, bei denen ein Produkt- Rating größer/gleich 3 Sterne (60 %) vorhanden ist H5a + RATING_SHOP 0,00–1,00 Anteil Produktdetailseiten, bei denen ein Shop-Rating größer/gleich 3 Sterne (60 %) vorhanden ist H5b + LISTE 0, 1, 2, … Aufruf einer Liste H6a – STYLE 0, 1, 2, … Aufruf eines Styles H6b – TAG 0, 1, 2, … Nutzung eines Tags (nutzergeneriert) H7 + PROFIL 0, 1, 2, … Aufruf einer Profilseite H8 – Transaktion CLICK_OUT 0: nein, 1: ja Weiterleitung zu einem partizipierenden Online-Shop Zielgröße Quelle: Holsing 2012
  • 35.
    Logistische Regressionsanalyse: Zielgröße Click-Out(0/1) 35 Variable B Standard- fehler Wald Chi- Square Exp(B) 95 % Intervall Untergrenze 95 % Intervall Obergrenze Hyp. bewährt? Konstante 3,675 0,023 25.215,121* Generell LOG_IN (=0) –4,996 0,023 46.938,893* 0,007 0,006 0,007 j WOCHENENDE (=0) –0,028 0,003 99,669* 0,972 0,967 0,978 j DAUER_KLICK 0,297 0,001 42.665,871* 1,346 1,343 1,350 j PRODUKT 0,086 0,003 693,366* 1,090 1,083 1,097 n START –1,840 0,011 29.026,595* 0,159 0,156 0,162 j Such- funktionen SUCHFELD –0,387 0,002 30.750,964* 0,679 0,676 0,682 j SUCHE_GESCHLECHT 0,172 0,003 4.751,073* 1,188 1,182 1,194 n SUCHE_KATEGORIE –0,012 0,002 42,034* 0,988 0,985 0,992 j SUCHE_MARKE 0,111 0,004 920,943* 1,117 1,109 1,125 n SUCHE_PREIS 0,310 0,006 2.687,315* 1,363 1,348 1,380 n SUCHE_SALES 0,212 0,008 675,678* 1,236 1,217 1,256 n SUCHE_SHOP –0,107 0,006 365,097* 0,899 0,889 0,909 j Social Shopping RATING_PRODUKT 0,003 0,001 10,624** 1,003 1,001 1,005 j RATING_SHOP 0,213 0,001 48.530,326* 1,238 1,236 1,240 j LISTE –1,862 0,044 1.780,645* 0,155 0,142 0,169 j STYLE –0,652 0,021 970,791* 0,521 0,500 0,543 j TAG –0,222 0,011 394,887* 0,801 0,783 0,819 n PROFIL –2,584 0,040 4.145,029* 0,075 0,070 0,082 j Anm.: * p < 0,0001; ** p < 0,001; Likelihood Ratio-Test: χ2(18) = 264.030,374; p < 0,0001; Pseudo-R2 = 0,07; Klassifikationsgüte = 63,4% Quelle: Holsing 2012
  • 36.
    Überblick: Zielgrößen Click-Outund Verweildauer 36 Startseite Click-Out Log-In Besuch Wochenende Suchfunktionen: Geschlecht, Marke, Preis und Sales Rating (Produkt und Shop) Social-Shopping- Funktionen: Liste, Profil, Style und Tag Suchfunktionen: Suchfeld, Kategorie und Shop Verweildauer/Seite + – + + + + – + – *: bis auf Log-In sind Koeffizienten signifikant positiv. Verweildauer/ Seite und Rating nicht untersucht. Stimuli (unabh. Var.) Reaktion (abh. Var.) Verweildauer gesamt + + * Produktdetailseite  Results also conform to the following descriptive results  Avg. visit duration of logged-in users: 125 sec.; non-logged-in users: 202 sec.  Visit duration in sessions, in which at least one list or style is considered, is 56% higher  The number of clicks in such sessions is substantially higher; on average 3.7 clicks more  Click-out rate: 29.9% (overall 41%)
  • 37.
    Entscheidungsbaum 37 > 4,224<= 4,224 >4,916<= 4,916> 4,554<= 4,554 > 0,347 > 5,939> 0,347 > 0,896 <= 5,939 Nein Nein Ja<= 0,347 <= 0,896 <= 4,959 > 4,959 <= 0,347 <= 0,896 > 0,896 <= 0,690 > 0,690 Ja PRODUKT_DAUER DAUER PRODUKT SUCHFELD LOG_IN DAUER_KLICK SUCHFELD DAUER PRODUKT_DAUERKAMPAGNEDAUERPRODUKT 7 (n=692.612) 0: 68,66% 1: 31,37% Quelle: Holsing 2012
  • 38.
    Vergleich der Ergebnisse 38 VariablenkategorieVariable Log. Regr. Entscheidungsbaum MLP Generell LOG_IN +++ + +/++ KAMPAGNE n. u. + + WOCHENENDE + o + DAUER n. u. ++/+++ +++ DAUER_KLICK +++ ++ +++ PRODUKT +/++ ++/+++ +++ MAX_PRODUKT n. u. o ++ PRODUKT_DAUER n. u. +++ ++/+++ START +++ o +++ Suchfunktionen SUCHFELD +++ ++ +++ SUCHE_GESCHLECHT ++ o ++ SUCHE_KATEGORIE + o ++ SUCHE_MARKE ++ o ++ SUCHE_PREIS ++ o ++ SUCHE_SALES ++ o ++ SUCHE_SHOP + o + Social Shopping RATING_PROD + o + RATING_SHOP ++ o + LISTE ++ o ++ STYLE +++ o ++ TAG ++ o ++ PROFIL + o ++ +++ starker Einfluss, ++ mittlerer Einfluss, + schwacher Einfluss, o kein Einfluss, n. u.: nicht untersucht
  • 39.
    Vergleich der Methoden 39 Logistische Regression: Anforderungen an Modellprämissen höher, empfindlich gegenüber Ausreißern, Signifikanzniveau vorhanden  Unabhängige Variablen: Anzahl verschieden  Methoden ergänzen sich Kriterium Logistische Regression Entscheidungsbaum Neuronales Netz Anzahl Input-Variablen 18 22 22 Variablen im Modell 18 7 22 Klassifikationsgüte in % 63,40 71,58 73,24 Verständlichkeit Bestimmung der Wirkungsrichtung der Einflussgrößen durch (Effekt-) Koeffizienten Baumstruktur ist intuitiv verständlich (hier Klickprofile) Black-Box-Charakter Quelle: Holsing 2012
  • 40.
    Implikationen für dasManagement einer SSC 40  Anzahl der Community-Mitglieder erhöhen  Abgabe von Ratings fördern  Trotz geringer Nutzung: Social Shopping-Funktionen wirken signifikant auf Click-Out (negativ) und Stickiness (positiv)  Social Shopping-Funktionen separieren und wg. mögl. Reaktanz erklären  Aber: Social Shopping-Funktionen können wichtig sein für:  Attraktivität (Akquise und Loyalität)  Förderung Stöbern  Impulskäufe  Werbeerlöse (z.B. Banner und Textanzeigen (AdSense))  Verweildauer erhöhen (Differenzierung stöbern vs zielgerichtet)  Logfiles für Real-Time Analytics/ CRM/ Business Intelligence
  • 41.
    Implikationen für dasManagement von Online-Shops 41  Abgabe von Ratings fördern (für eigenen Shop/ Produkte)  Konzeption kanalspezifischer Pricing-Strategien  Aufmerksamkeit durch UGC (Listen, Styles)  Bsp.: Style Contests von Coach, Nike und Gucci  Coach: Innerhalb 1 Woche: 3.692 Styles, > 100.000 Likes, > 200.000 Aufrufe  Word-of-Mouth at it’s best!  Listen und Styles als Forecasting Tool nutzen  Integration in ‚Social CRM Strategy‘  Text Mining von nutzergenerierten Inhalten  Identifizierung Lead User  Tracking Conversion Rates
  • 42.
    Fazit 42  Logfile-Analyse liefertneuartige Erkenntnisse zum Kaufverhalten in SSCs  Grenzen: Logfiles stammen aus einer frühen Entwicklungsphase, keine Wiederholungsbesuche erfasst, Inhalt der Seiten nicht enthalten  Mögliche weitere Analyse: Einbezug von tatsächlichen Käufen, Sequenzanalyse  Ökonomische Relevanz von BIG DATA steigt
  • 43.