2. Inhalt
01 Was ist Data Science
02 Recommendation Systeme
03 Projektlebenszyklus
04 GA360 und BigQuery
05 RecSys in der GCP
3. Seite 3
Siegfried Stepke, M.A.
Gründer und Geschäftsführer e-dialog
Country Manager der Digital Analytics Association
stepke@e-dialog.at+43-1-309 09 09
Kateryna Salii
Data Scientist
salii@e-dialog.at+43-1-309 09 09
Über uns
5. Seite 5
Fähigkeit einer Maschine
intelligentes menschliches
Verhalten zu imitieren
Anwendung von AI, die es
einem System erlaubt
automatisiert zu lernen und
Erfahrung zu sammeln
Anwendung des Machine
Learnings, die komplexe
Algorithmen und neuronale
Netze nutzt um Modelle zu
trainieren
Data
Science
Definitionen
Artificial
Intelligence
Machine
Learning
Deep
Learning
6. Seite 6
...ein interdisziplinäres
Wissenschaftsfeld, welches
wissenschaftlich fundierte
Methoden, Prozesse,
Algorithmen und Systeme zur
Extraktion von Erkenntnissen,
Mustern und Schlüssen sowohl
aus strukturierten als auch
unstrukturierten Daten
ermöglicht
Computer
Science
Math &
Statistics
Business
Knowledge
Statistical
Research
Software
Development
Machine
Learning
Data
Science
Data Science ist...
Qulle: https://de.wikipedia.org
7. Seite 7
Risk Modeling Upselling
Market Basket
Analytics
Sentiment
analysis
Predicting flight
delay
Self driving cars
Disease
prediction
Fraud & risk
detection
Churn
prediction
Marketing Mix
Analysis
Digital marketing
Dynamic
pricing
Pilotless aircrafts,
drones
Medication
effectiveness
Customer
Segmentation
Cross selling
Product Pricing
Sales/Discount
offering
Recommendation
system
Claim prediction
Predicting
lifetime value
of customer
Demand
forecasting
Customers/
products
Segmentation
Product
bundling
Advertisement
optimization
Wo kann man Data Science benutzen
Risk Modeling Upselling
Market Basket
Analytics
Sentiment
analysis
Predicting flight
delay
Self driving cars
Disease
prediction
Fraud & risk
detection
Churn
prediction
Marketing Mix
Analysis
Digital marketing
Dynamic
pricing
Pilotless aircrafts,
drones
Medication
effectiveness
Customer
Segmentation
Cross selling
Product Pricing
Sales/Discount
offering
Recommendation
system
Claim prediction
Predicting
lifetime value
of customer
Demand
forecasting
Customers/
products
Segmentation
Product
bundling
Advertisement
optimization
Credit &
Insurance
Marketing Sales
Social
Media
Travel Automation Healthcare
11. Seite 11 Bild-Quelle: https://www.slideshare.net/think360studio/ux-humor-jokes-and-funny-quotes
Recommendation Systeme...
● ...helfen inhaltlich ähnlichen
Content zu finden
● ...helfen neue Produkte/
Items zu finden
● ...verbessern die
Entscheidungsfindung der
User
12. Seite 12
Wir verstehen unsere Kunden besser
● Umsatzzuwächse
● verkaufen vielfältige
Produkte
● erhöhen die User-Loyalität
● erkennen die Wünsche &
Bedürfnisse der User besser
15. Collaborative Filtering
Kollaboratives Filtern
verwendet Ähnlichkeiten
zwischen Verhaltensmustern
von Benutzern und
Elementen gleichzeitig, um
Empfehlungen zu ermitteln.
Bild-Quelle:
https://towardsdatascience.com/how-to-build-from-scratch-a-content-base
d-movie-recommender-with-natural-language-processing-25ad400eb243
16. Seite 16
Was ist eine user/item-Matrix?
✓ ✓ ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
A B C D E F
m
User
n
Objekte
1
2
4
3
5
✓ ✓ ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
✓ ✓ ? ? ? ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
✓ ✓ ? ? ? ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
✓ ✓ ? ? ? ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
✓ ✓ ✓ ✓ ✓
✓ ✓ ✓
✓
✓ ✓ ✓ ✓ ✓
18. Seite 18
Content-based Collaborative Filtering Knowledge (Rule) based
Beispiele
Dem User werden ähnliche Produkte
zu jenen vorgeschlagen, die ihn
bereits interessiert haben
Anderen Usern gefällt dieser Film, dir
wird er wahrscheinlich auch gefallen
Der User wählt Interessens-
Kategorien, Produkte dieser
Kategorien werden vorgeschlagen
Vorteile
- Daten anderer User nicht nötig
- braucht weniger Daten als andere
Modelle
- hohe Genauigkeit
- Produkt/User Beschreibung nicht nötig
- serendipity: Neue Vorschläge
- keine Kaltstartprobleme
- gesicherte Qualität
Nachteile
- Produktbeschreibung nötig
- keine wirklich neue Vorschläge
- für neue User schwierig (Kaltstart)
- Kaltstart bei neuen Usern/Produkten
- gewisses Maß an Userdaten nötig
- Knowledge engineering nötig
- sensitive to preference change
- keine wirklich neue Vorschläge
Benötigte Daten
- Produktinfo
- User-Aktionen (Minimum 1)
User-Actions (Ratings, Clicks, Einkäufe,
Likes/Dislike, Viewtime, …)
- Beschreibung der
User-Bedürfnisse und Interessen
- Domain/Industry Knowledge
Im Vergleich...
23. Seite 23
Machine Learning Workflow
Data Ingestion
Test
Data
Data
Cleansing/
Transformation
Model
Testing
Model
Training/
Building
Model
Deployment
User
Train/Test Loop
Model Feedback Loop
25. Seite 25
User-Daten mit GA360
● Interaktionen der User
(Clicks, Käufe, Likes/ Dislikes, Page Views...)
● Device, Browser Info
● Sprache des Users
● Land/Region/Stadt
● Komplette Produktinfo
von Website
● Custom Dimensions
26. Seite 26
z.B. auch Custom Dimensions
● 200 Custom Dimensions
● 200 Metrics
● alle Events
● Erfassung via
○ Tracking
○ Measurement Protocol
○ API (Upload)
Custom Dimensions e-dialog Blog
27. Seite 27
Rohdaten - Fundament einer Datenstrategie
● Analytics aggregiert Daten (fasst sie zusammen)
● Rohdaten sind Voraussetzung für Machine Learning
● Google exportiert die Analytics Rohdaten nach
BigQuery
Ohne Rohdaten bringen die besten Algorithmen nichts!
28. Seite 28
● BigQuery-Schnittstelle stellt
gesammelte Clickstream-Daten – also
Rohdaten – in Googles Big Data Engine
zur Verfügung
Anwendungsbeispiele:
● Customer Journey Analysen über Saisonen
hinweg (GA betrachtet nur 90 Tage)
● Customer Lifetime Value berechnen
● Daten anreichern
● Weitere Systeme (ML) in der Google Cloud
direkt nutzen
BigQuery <> GA360
257 Big Query Columns
+ Custom Dimensions/Metrics
29. Seite 29
BigQuery Vorteile
● Flexible Pricing-Optionen
● managed cloud service
● Hohe Verfügbarkeit
● Einfach und skalierbar
● Geschwindigkeit bei
Abfragen
● Sicherheit
● Verlässlichkeit
Query & Ergebnis mit nested fields
speziell für
komplexe Analysen
31. Seite 31
Kurier Case: Onsite Reco
Customer Web
Application
Google
Analytics
Orchestration
---------------
Cloud Composer
Google Analytics
---------------
Big Query
ML Data
---------------
Cloud Storage
Model Training
---------------
Cloud ML
---------------
Mobile/Tablet
Client
Training/Model FilesDatabase
server
Rec API
---------------
App Engine
Cloud Endpoints---------------
Browser Client
Application
server
Web
server
32. Seite 32
Architektur für Off-Site Personalisierung
Campaign
Manager
Google
Analytics
Orchestrierung
---------------
Cloud Composer
Google Analytics
---------------
Big Query
ML Data
---------------
Cloud Storage
Model Training
---------------
Cloud ML
Training/Model FilesDV360
CM & DV360
API
---------------
Users, Produkte,
Targeting &
Bidding
33. Seite 33
Vorteile & Eigenschaften
Orchestrierung
---------------
Cloud Composer
Google Analytics
---------------
Big Query
ML Data
---------------
Cloud Storage
Model Training
---------------
Cloud ML
- Python Programm.-
Sprache
- vollständig verwaltet
-Open Source
- integriert
- verlässlich
- support für tausende
User und TB an
-Deeplearning und
Predictive Analytics
Fähigkeiten
- Basis: Google’s
Tensorflow
framework
- Skalierbarkeit
- flexibles & leistbares
Pricing
- Nahtloses Daten-
Lifecycle
- Absicherung
- Zugang zu Daten
jederzeit möglich
- unterstützt Big Data
- xxx Daten sowohl
structured & relational
- kein Server
- Real-Time Analytics
- automatisch hohe
Verfügbarkeit
- Standard SQL
- Automatisches
Backup und einfaches
Restoring
- flexible Pricing-
Modelle
34. Seite 34
Build or Buy? Vorteile beim Selbstbauen:
Keine BlackBox → Transparenz → Optimierbarkeit
Flexibilität
→ eigene Datenmodelle & erweiterte Metriken nutzbar
→ Verschiedene Modelle bauen und testen
Datenqualität selbst evaluiert und sichergestellt
Skalierbarkeit in Datenmengen, Attributen und Leistung
Günstiger
Data Ownership
eigene Metriken, Dimensionen, Ziele, Optimierungen!