2. Inhalt Algorithmus
1. Vorstellung
2. Das Spiel
3. Definition Algorithmus
4. Welche Aufgaben?
5. Welche Daten?
6. Welche Konzepte?
7. Grenzen?
8. Fragen
3. Vorstellung
● plista GmbH
○ Empfehlungs- & Werbenetzwerk
○ 2008 Gründung, Sitz in Berlin
○ ~3k Recommendations/Sekunde
● Torben Brodt, Head of Data Engineering
○ 2003 Black Hat SEO
○ 2004 Programmier Forum
○ 2005 Studium Informatik
○ 2008 plista
○ 2010 Buch „Collaborative Filtering“
○ TV + Radio „Macht der Algorithmen“
4. Algorithmus das Spiel
● Es gibt 18 Streichhölzer
● Der erste Spieler nimmt 1, 2 oder 3, der auf
dem Tisch liegenden Streichhölzer
● Danach nimmt der zweite Spieler entweder
1, 2 oder 3 der verbleibenden Hölzer... usw.
● Verloren hat der Spieler, der das letzte
Streichholz vom Tisch nimmt
● Bitte jetzt Paare bilden für Runde 1,
danach treten die Gewinner
gegeneinander an
6. Algorithmus das Spiel
● Wie lautet die Gewinnformel?
● Intuition? Logik?
Quelle: http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo14.php
Algorithmus der Woche, Jochen Könemann, University of Waterloo
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
G N J J J N J J J N J J J N J J J N J
i Streichhölzer
G Gewinn möglich
Sequenz wiederholt sich
7. Definition Algorithmus
● Wortherkunft: arabisches Lehrbuch,
lateinisch übersetzt: „dixit Algorismi“
● Schritt für Schritt Abfolge zur Lösung
eines Problems
● Algorithmus = Gewinnformel
● Simples Beispiel: „Kochrezept“
● „Big Data“: komplexe Probleme mit
großen Datenmengen
Algorithmus
8. Big Data: Welche Aufgaben?
● Bekannte Nutzer von Big Data Algorithmen
○ Google
○ Facebook
○ Amazon
○ ... uvm
● Konfrontiert mit gigantischer Datenmenge
● Berechnung nach individuellen Bedürfnissen
9. Big Data: Welche Daten?
● Was wissen "die" eigentlich über euch?
● Context der Anfrage / Parameter der Anfrage
● CRM: Demographie, Kaufkraft, uvm.
● Anonyme Daten: URL, Geolocation, Uhrzeit,
Wochentag, Suchanfrage, Gerät, Betriebssystem,
uvm
● Social Daten: Alter, Geschlecht, Hobbies, etc
○ z.B. „Nach Facebook Login“
● Alle diese Daten werden gesammelt
10. Big Data: Welche Konzepte?
● Modelle und Herangehensweisen um Daten
nutzbar zu machen
a) Logik
b) Clustering
c) Neighborhood
d) Ausprobieren
e) Mittelwerte
● Das sind Grundlagen, aber es gibt noch
konkretere Algorithmen
11. Konzept a) Logik & Mathematik
● Wir verlassen uns auf Zahlen, wir nutzen
unser Wissen
○ Welche Relevanz hat eine Website bei Google?
○ 75% 3 von 4 Wörter Suchanfrage zu Text
○ 50% Pagerank 5 von 10
12. Konzept a) Logik & Mathematik
● Wissensdatenbank
○ Matching zwischen Person und Gegenstand
○ "Frauen besuchen Brigitte.de"
● Parameter berechnen
○ Kreditvergabe:
■ Höhe des Kredits
■ Höhe des Einkommens
■ ...
○ Suchmaschinen Ergebnis
○ Herzinfarkt-Risiko
○ ...
13. Konzept b) Clustering
● Alle Möglichkeiten abzuwägen wäre
kompliziert
● also fassen wir "Dinge" zu "Clustern"
zusammen
● Vorteil 1: Weniger Komplexität bei
Entscheidungen!
● Vorteil 2: Mehr Datendichte
17. Konzept c) Neighborhood
● Gemeinsamkeiten suchen (ähnlich Clustering)
● Bekanntes auf Unbekanntes übertragen
● Allgemeiner Ansatz für Finanz-
Entscheidung, Werbe-Empfehlung,
Herzinfarkt-Risiko
● "Kollektive Intelligenz" - Mit neuen Daten
werden die Empfehlungen automatisch
besser
18. Konzept d) Ausprobieren
● "Trial and Error"
○ ausprobieren, scheitern, verbessern
● Man sollte fortlaufend beobachten
○ „Live Training“, denn alles ändert sich
○ Dazu technisches System um Erfolge zu
kontrollieren
● A/B Testing
○ Beispiel Telefonmarketing
○ Variable: Ruft eine Frau oder ein Mann an?
● Multivariante A/B Tests
○ Mehr als eine Variable
20. Konzept e) Mittelwert
● Wir haben Statistiken für alle Eingabe-
Parameter
○ Wir orientieren uns am Durchschnittswert
○ Wir empfehlen das, was der Mainstream mag
● Kombination verschiedener Mittelwerte je
nach Eingabeparameter
● Welcher Wert für Gender=Frau
● Welche Empfehlung für Publisher=fussball.
de
21. Wo sind die Grenzen?
● Es gibt keine Grenzen
● Datenmengen bis in Petabyte Dimensionen
○ Das sind viele Otto-Normal-Festplatten ;)
● Auswertungen in Echtzeit
○ Keine Lochkarten Maschinen mehr
● Integration überall dort wo man es braucht
○ Keine Blackboxen mehr, der Mensch will verstehen
● Mehr im "Data Unser"
22. Fazit
● „Das Spiel“ hat gezeigt, dass Algorithmen
auch mit Intuition gestützt werden können
● Es gibt verschiedene Konzepte, diese sind
auch intuitiv
● Konzepte lassen sich miteinander
kombinieren
● Es gibt viele Daten und alle Daten bieten
Mehrwert,
● Eure Daten sind wertvoll
Mehr Informationen: http://cra.org/ccc/docs/init/bigdatawhitepaper.pdf
Challenges and Opportunities with Big Data, From leading researchers across the United States