Alles Scheiße 2020
Neue Herausforderungen für Deine Webanalyse
Markus Baersch
gandke gmbh
So sieht´s aus
Datenschwund
„Datenschmutz“
Abdeckung
Datenqualität
So sieht´s aus
„Zwei Schlachtfelder“
Datenqualität
•Unvollständige
Daten
•Unerwünschte
oder falsche
Daten
Datenschwund
•Technik
•Regulierung
Schlachtfeld Datenqualität
Unvollständige Daten
•(not provided) statt
Keywords
•Fehlende oder falsche
Referrer-Angaben
•Dimensionsschwund
nach x Monaten
•Internetdienstanbieter
Falsche Daten
•Interner Traffic
•Falsche Hosts, Google
Suchergebnisse
•(Ghost-) Spam
•Rendernde Tools &
Headless Browser
Lösungen zu „Klassikern“
Referrerthemen
Suchmaschinen auswerten: https://www.markus-baersch.de/blog/organische-besucher-im-
griff-eine-abkuerzung-fuer-google-analytics/ (2018)
Referrer nach Consent „nachsenden“: https://www.gandke.de/blog/referrer-und-
landingpage-spaeter-an-analytics-senden/
Interner Traffic
https://www.gandke.de/blog/internen-traffic-bei-google-analytics-ausschliessen/ (2017)
https://www.markus-baersch.de/blog/eigene-besuche-in-analytics-ausschliessen-wordpress/
(2018)
Ghost Spam
https://www.gandke.de/blog/analytics-ghost-spam-wirksam-verhindern-ein-etwas-anderer-
filter/ (2015)
Lösungsansatz:
ISP Rückgewinnung
ISP / Internetdienstanbieter
Wozu brauche ich das überhaupt?
Wird i. d. R. bei Filtern eingesetzt. Spam (s.u.), Interne Besucher...
Wie zurückgewinnen?
• Externen Dienst aufrufen oder eigenen bauen und im Client
bestimmen
• Serverseitig auswerten und in Datenschicht schreiben
• GTM Template von Simo Ahava und https://ipgeolocation.io/
• Oder via GeoIP2 Commercial (MaxMind)
• oder DB-IP. https://db-ip.com/api/
Internetdienstanbieter
Beispielcode serverseitige Erkennung mit ipgeolocation.io
Lösungsansatz:
Headless Browser
erkennen
Erkennung anhand bestehender Daten
Vorteile
• Schnell gemacht
Nachteile
• Nur wenig Merkmale
• Nach Senden des Hits
schon „zu spät“
• Ergebnis nicht
belastbar
Erkennungsmöglichkeiten
• Bekannte Crawler
• „Good Bots“
• Schlecht konfigurierte
Headless Browser
User
Agent
• Sind bestimmte
Features da oder fehlen
sie?
• Dimensionen des
Geräts
• …
Feature
Erkennung
{{Benutzerdefinierte
Dimensionen}}
BotMarker - Daten sammeln
BotMarker - Daten sammeln
BotMarker - Daten auswerten
BotMarker - Daten segmentieren
BotMarker - „Take Away-Folie“
Audit
Eigene Daten checken unter https://www.analytrix.de/
Bot Marker nutzen
Beschreibung im Blog unter https://www.markus-baersch.de/blog/headless-browser-in-
google-analytics-erkennen/
Script bei Github
JS und Erläuterungen: https://go.gandke.de/botmarker
Bei Slideshare: https://www.markus-baersch/slideshare
Präsentation
Schlachtfeld Datenschwund
Technik
•Tracking - Blocker
•ITP
•ETP
•SameSite
Regulierung
•DSGVO
•ePrivacy
•Consent
Management
Websiteübergreifendes Tracking, Profilbildung
https://clearcode.cc/blog/cookie-syncing/
Wer macht was?
Chrome
• Anti Fingerprinting,
• „sameSite“-Attribut
Edge
• Schutz derzeit nur in „Microsoft Edge Insider preview“
• Umfang und Defaults noch nicht final. Es geht auch localStorage an den Kragen
• Nur eine Frage der Zeit
Firefox
• Enhanced Tracking Protection (ETP) betrifft das Laden von Tracking-Scripts und Zugriff auf Cookies
• Akt. Stand (seit 70): Firefox blockiert per Vorgabe der Nutzerverfolgung dienende Third Party Cookies und auch FP Tracker wie GA
anhand einer Liste
• Fingerprinting Schutz separat vorhanden; ITP will follow(?)
Safari
• Intelligent Tracking Prevention (ITP)
• „Vorreiter“ und derzeit das größte Hindernis
• ITP 2.1 seit Safari 12.1 (2.2: 12.2). Per JS gesetzte Cookies leben nur noch maximal 7 Tage, oft nur einen Tag
• ITP 2.3 (seit Safari 13): behandelt localStorage & Co. wie Client-Cookies
ITP: Kurzzeitkekse
Disconnect „Bad Boys“ List
https://github.com/disconnectme/disconnect-tracking-protection
ITP / ETP: Optionen
zur Lösung
Überblick Lösungswege
•„same origin“ kann ein Problem sein / Komplexität erhöhen
•Cookies als Fallback behalten
localStorage
•DSGVO-konf. Identifikation der User durch Site erforderlich
•kann per Design nur Teillösung sein
User ID
•httpOnly, secure Cookies und eigenes Management der ClientId
•Fingerprinting, eTags… (s. z. B. https://converlytics.com/analyse/cookieless-tracking/)
„Cookieless“ / Serverseitige
Cookies
•Anpassung Trackingcode erforderlich
•Technisch vergleichbar, aber „weniger Schutz“ vor Profilbildung
Cookies nachträglich „aufwerten“
•Reverse Proxy / CNAME - geht es auch schon an den Kragen„First Party Script“
•Warten auf Hersteller. Auch bei Google bewegt sich wasNichts tun
•Serverseitiges Tracking, PIWIK Pro, Matomo?Toolwechsel
Ausblick
Neue Modelle / Ersatztechnologien
• IAB User Token, „standardized, controlled container for ad
delivery“. https://iabtechlab.com/blog/evolution-of-internet-
identity-privacy-tracking/
• HTTP State Tokens (Entwurf, „google-nah“).
https://mikewest.github.io/http-state-tokens/draft-west-http-
state-tokens.html
Hilft uns das wirklich?
• Regulierung macht keinen Unterschied zwischen Cookies und
anderem Kram
ITP / ETP: Was tun?
• Problem analysieren:
• Langzeitsicht nach Browsern
• ITP: Impact wiederkehrende Besucher
• Transaktionen vs. Backend
• Serverseitiges Logging von Trackingblockern
• Lösungen evaluieren:
• Was ist technisch überhaupt einsetzbar im Kontext des
eigenen Systems?
• Welche Daten ändern sich oder gehen verloren?
Tracking anpassen: Links zu Lösungen
User ID
Info unter support.google.com/analytics/answer/3123662?hl=de
Hintergrund
Mein „ITP Rant“: go.gandke.de/itp1
ITP Post von Simo www.simoahava.com/analytics/itp-2-1-and-web-analytics/
Secure Cookies & Alternativen
„Upgrade“ per PHP: go.gandke.de/itpcookieupgrade
Krasser Spaß mit GCP: https://go.gandke.de/itp-gcp
Secure Cookie Alternative: https://go.gandke.de/secure-ga-cookie
Serverseitiges Tracking mit GA: https://www.markus-baersch.de/blog/serverseitiges-tracking-
mit-google-analytics/
Tag Manager Server: https://github.com/Tag-Manager-Server/TMS
Cookie
Consent
Management
Consent Management
Nicht nur Cookies
• Verzicht auf Cookies ist keine Lösung!
• Alle Formen der „Speicherung“ auf Endgeräten oder daraus ausgelesener
Informationen
• Es geht nicht mehr nur um personenbezogene Daten
• Am Ende des Tages: „Tracking“ aller Art
• Cookie Consent vs. Tracking Consent
• Nicht alles braucht Zustimmung
Probleme
• Unsicherheit bei Gestaltung, Umfang, Granularität
• Auswahl, Test und Implementierung sind hart
• Ergebnis: Unvollständige oder fehlerhafte Implementierungen en masse!
„Nähkästchenfolie 1“
„Nähkästchenfolie 2“
Consent Management
Fragen zur Strategie
• Welches Tool ist „das richtige für mich“?
• Was tun, wenn kein „Cookie-Consent“ besteht?
• Wie viel Zustimmung brauche ich für belastbare Auswertungen?
• Bringen alternative Tools mehr Vor- oder Nachteile?
• Welche Schnittstellen bediene ich? Ads? Reporting?
• Was brauche ich wirklich und worauf kann ich verzichten?
Consent Management
Fragen zur Toolauswahl
• Systemnahe Lösung vorhanden?
• Granularität der Berechtigungen
• Cookie-Erklärung vorhanden?
• Cookies oder Trackingdienste?
• Dokumentation der Entscheidungen
• Gestalterische Optionen und Freiheiten
• Unterschiedliche „Zustimmungsprozesse“?
Holt Euch Hilfe! Recht, Impact, Tech…
N. D.
gandke.de
markus-baersch.de
markus-baersch.de/facebook
markus-baersch.de/xing
@mbaersch
markus-baersch.de/slideshare
… Fragen? Gern!
mbaersch@gandke.de
analytrix.de/shirt 

Tracking-Herausforderungen 2020

  • 1.
    Alles Scheiße 2020 NeueHerausforderungen für Deine Webanalyse Markus Baersch gandke gmbh
  • 3.
  • 4.
  • 5.
  • 6.
    Schlachtfeld Datenqualität Unvollständige Daten •(notprovided) statt Keywords •Fehlende oder falsche Referrer-Angaben •Dimensionsschwund nach x Monaten •Internetdienstanbieter Falsche Daten •Interner Traffic •Falsche Hosts, Google Suchergebnisse •(Ghost-) Spam •Rendernde Tools & Headless Browser
  • 7.
    Lösungen zu „Klassikern“ Referrerthemen Suchmaschinenauswerten: https://www.markus-baersch.de/blog/organische-besucher-im- griff-eine-abkuerzung-fuer-google-analytics/ (2018) Referrer nach Consent „nachsenden“: https://www.gandke.de/blog/referrer-und- landingpage-spaeter-an-analytics-senden/ Interner Traffic https://www.gandke.de/blog/internen-traffic-bei-google-analytics-ausschliessen/ (2017) https://www.markus-baersch.de/blog/eigene-besuche-in-analytics-ausschliessen-wordpress/ (2018) Ghost Spam https://www.gandke.de/blog/analytics-ghost-spam-wirksam-verhindern-ein-etwas-anderer- filter/ (2015)
  • 8.
  • 9.
    ISP / Internetdienstanbieter Wozubrauche ich das überhaupt? Wird i. d. R. bei Filtern eingesetzt. Spam (s.u.), Interne Besucher... Wie zurückgewinnen? • Externen Dienst aufrufen oder eigenen bauen und im Client bestimmen • Serverseitig auswerten und in Datenschicht schreiben • GTM Template von Simo Ahava und https://ipgeolocation.io/ • Oder via GeoIP2 Commercial (MaxMind) • oder DB-IP. https://db-ip.com/api/
  • 10.
  • 11.
  • 12.
    Erkennung anhand bestehenderDaten Vorteile • Schnell gemacht Nachteile • Nur wenig Merkmale • Nach Senden des Hits schon „zu spät“ • Ergebnis nicht belastbar
  • 13.
    Erkennungsmöglichkeiten • Bekannte Crawler •„Good Bots“ • Schlecht konfigurierte Headless Browser User Agent • Sind bestimmte Features da oder fehlen sie? • Dimensionen des Geräts • … Feature Erkennung {{Benutzerdefinierte Dimensionen}}
  • 14.
  • 15.
  • 16.
  • 17.
    BotMarker - Datensegmentieren
  • 18.
    BotMarker - „TakeAway-Folie“ Audit Eigene Daten checken unter https://www.analytrix.de/ Bot Marker nutzen Beschreibung im Blog unter https://www.markus-baersch.de/blog/headless-browser-in- google-analytics-erkennen/ Script bei Github JS und Erläuterungen: https://go.gandke.de/botmarker Bei Slideshare: https://www.markus-baersch/slideshare Präsentation
  • 19.
    Schlachtfeld Datenschwund Technik •Tracking -Blocker •ITP •ETP •SameSite Regulierung •DSGVO •ePrivacy •Consent Management
  • 21.
  • 22.
    Wer macht was? Chrome •Anti Fingerprinting, • „sameSite“-Attribut Edge • Schutz derzeit nur in „Microsoft Edge Insider preview“ • Umfang und Defaults noch nicht final. Es geht auch localStorage an den Kragen • Nur eine Frage der Zeit Firefox • Enhanced Tracking Protection (ETP) betrifft das Laden von Tracking-Scripts und Zugriff auf Cookies • Akt. Stand (seit 70): Firefox blockiert per Vorgabe der Nutzerverfolgung dienende Third Party Cookies und auch FP Tracker wie GA anhand einer Liste • Fingerprinting Schutz separat vorhanden; ITP will follow(?) Safari • Intelligent Tracking Prevention (ITP) • „Vorreiter“ und derzeit das größte Hindernis • ITP 2.1 seit Safari 12.1 (2.2: 12.2). Per JS gesetzte Cookies leben nur noch maximal 7 Tage, oft nur einen Tag • ITP 2.3 (seit Safari 13): behandelt localStorage & Co. wie Client-Cookies
  • 23.
  • 24.
    Disconnect „Bad Boys“List https://github.com/disconnectme/disconnect-tracking-protection
  • 25.
    ITP / ETP:Optionen zur Lösung
  • 26.
    Überblick Lösungswege •„same origin“kann ein Problem sein / Komplexität erhöhen •Cookies als Fallback behalten localStorage •DSGVO-konf. Identifikation der User durch Site erforderlich •kann per Design nur Teillösung sein User ID •httpOnly, secure Cookies und eigenes Management der ClientId •Fingerprinting, eTags… (s. z. B. https://converlytics.com/analyse/cookieless-tracking/) „Cookieless“ / Serverseitige Cookies •Anpassung Trackingcode erforderlich •Technisch vergleichbar, aber „weniger Schutz“ vor Profilbildung Cookies nachträglich „aufwerten“ •Reverse Proxy / CNAME - geht es auch schon an den Kragen„First Party Script“ •Warten auf Hersteller. Auch bei Google bewegt sich wasNichts tun •Serverseitiges Tracking, PIWIK Pro, Matomo?Toolwechsel
  • 28.
    Ausblick Neue Modelle /Ersatztechnologien • IAB User Token, „standardized, controlled container for ad delivery“. https://iabtechlab.com/blog/evolution-of-internet- identity-privacy-tracking/ • HTTP State Tokens (Entwurf, „google-nah“). https://mikewest.github.io/http-state-tokens/draft-west-http- state-tokens.html Hilft uns das wirklich? • Regulierung macht keinen Unterschied zwischen Cookies und anderem Kram
  • 29.
    ITP / ETP:Was tun? • Problem analysieren: • Langzeitsicht nach Browsern • ITP: Impact wiederkehrende Besucher • Transaktionen vs. Backend • Serverseitiges Logging von Trackingblockern • Lösungen evaluieren: • Was ist technisch überhaupt einsetzbar im Kontext des eigenen Systems? • Welche Daten ändern sich oder gehen verloren?
  • 30.
    Tracking anpassen: Linkszu Lösungen User ID Info unter support.google.com/analytics/answer/3123662?hl=de Hintergrund Mein „ITP Rant“: go.gandke.de/itp1 ITP Post von Simo www.simoahava.com/analytics/itp-2-1-and-web-analytics/ Secure Cookies & Alternativen „Upgrade“ per PHP: go.gandke.de/itpcookieupgrade Krasser Spaß mit GCP: https://go.gandke.de/itp-gcp Secure Cookie Alternative: https://go.gandke.de/secure-ga-cookie Serverseitiges Tracking mit GA: https://www.markus-baersch.de/blog/serverseitiges-tracking- mit-google-analytics/ Tag Manager Server: https://github.com/Tag-Manager-Server/TMS
  • 31.
  • 33.
    Consent Management Nicht nurCookies • Verzicht auf Cookies ist keine Lösung! • Alle Formen der „Speicherung“ auf Endgeräten oder daraus ausgelesener Informationen • Es geht nicht mehr nur um personenbezogene Daten • Am Ende des Tages: „Tracking“ aller Art • Cookie Consent vs. Tracking Consent • Nicht alles braucht Zustimmung Probleme • Unsicherheit bei Gestaltung, Umfang, Granularität • Auswahl, Test und Implementierung sind hart • Ergebnis: Unvollständige oder fehlerhafte Implementierungen en masse!
  • 34.
  • 35.
  • 36.
    Consent Management Fragen zurStrategie • Welches Tool ist „das richtige für mich“? • Was tun, wenn kein „Cookie-Consent“ besteht? • Wie viel Zustimmung brauche ich für belastbare Auswertungen? • Bringen alternative Tools mehr Vor- oder Nachteile? • Welche Schnittstellen bediene ich? Ads? Reporting? • Was brauche ich wirklich und worauf kann ich verzichten?
  • 37.
    Consent Management Fragen zurToolauswahl • Systemnahe Lösung vorhanden? • Granularität der Berechtigungen • Cookie-Erklärung vorhanden? • Cookies oder Trackingdienste? • Dokumentation der Entscheidungen • Gestalterische Optionen und Freiheiten • Unterschiedliche „Zustimmungsprozesse“?
  • 38.
    Holt Euch Hilfe!Recht, Impact, Tech…
  • 39.
  • 40.