2. TechnologyScout
Überblick - Roadmap
• Was ist Betrug?
• Allgemein: Was ist das und wie läuft es ab?
• Welche Methoden gibt es?
• Wie sehen die Einsatzszenarien aus?
• Was ist denn nun der optimale Ansatz?
2
3. TechnologyScout
–Wikipedia–
„Betrug ist eine vorsätzliche Täuschung, um
sich unfaire oder ungesetzliche Vorteile zu
verschaffen oder um ein Opfer um sein
gesetzliches Recht zu bringen.“
3
4. TechnologyScout
Was ist
Betrugserkennung?
• Überwacht werden:
• Transaktionen bei Banken
• Claims bei Versicherungen
• Call Records bei Telco Providern
• Daten laufen parallel in Livesystem und Fraud Detection (FD)
• Wenn FD Alarm schlägt:
• Banking: Transaktion wird verweigert
• Versicherung: Claim ausgesteuert zur manuellen Analyse
4
7. TechnologyScout
Regelbasierte
Systeme
• Alle Transaktionen (Tx)
durchlaufen einen oder
mehrere Workflows
• Die einzelnen Schritte
bewerten Detail-
informationen einer Tx oder
beziehen aggregierte
Informationen ein
• Ergebnis: Fraud Score
7
IN
?
?
?
?
HOLD
OK
OKDENY
Time
9. TechnologyScout
Regelbasierte Systeme - Pro & Contra
• Ältestes und
bewährtes Modell
• Extrem schnell
• Direkte Begründung
der Aussteuerung für
einen Sachbearbeiter
durch Angabe der
gezogenen Regeln
9
• Erfordert viel
Branchenwissen
• Manche Szenarien
findet man schlecht
oder gar nicht
• „Human intelligence
based“
Pro Contra
12. TechnologyScout
Graphenbasierte Systeme - Pro & Contra
• Findet ungewöhnliche
oder versteckte
Szenarien
(Spiderweb, circular
cash flow)
• Da graphisch orien-
tiert, oft einsichtig und
leicht verständlich
12
• Benötigt spezielle
Datenbank
• Am besten geeignet
für detailreiche
Datensätze
• Datenmengen:
1 Tx → n Nodes, n-1
Links (n=5-20)
Pro Contra
13. TechnologyScout
Expertensysteme
• „Expertensysteme“
• Nutzen Fallbeispiele &
Domänenwissen im
Knowledge Engineering
• Ablauf:
1. Plan: Plane mögliche
Lösungskandidaten
2. Generate: Generiere
Lösungskandidaten
3. Test: Teste ob
Kandidaten Problem
lösen
13
Plan Gen Test
KE
15. TechnologyScout
Expertensysteme - Pro & Contra
• Lernt neue Szenarien
• Gut erforschte Technik
15
• Langsam bis sehr
langsam
• Lernfortschritt wird
durch Feedback der
Metadaten in die
Heuristik erreicht
(→manueller Eingriff)
Pro Contra
17. TechnologyScout
Deep Learning Systeme
Ein Perceptron
• Punkt (x,y):
• Unterhalb der Linie:
wahrscheinlich rot
• Oberhalb der Linie:
wahrscheinlich blau
• Mathematisch formuliert:
• Trainingsdaten zuführen &
Gewichtung w optimieren bzgl.
Outputfehler
17
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
18. TechnologyScout
Deep Learning Systeme
Viele Perceptrons - Ein Netz
• Jede Verbindung zwischen
Knoten hat eine Gewichtung
w’ analog zu denen der
Perceptrons selbst
• In diesem Beispiel:
• 3 Input-Werte
• 2 Output-Werte
• 1 hidden Layer
18
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
19. TechnologyScout
Deep Learning Systeme
Aktivierungsfunktionen f(x)
• Eine Linearkombination von linearen
Funktionen f(x) liefert immer noch eine
lineare Funktion
• Ausweg = nicht lineare Funktionen wie:
• Sigma-Funktion (logistic function)
• hyperbolischer Tangens (tanh)
• Heaviside Funktion
• Recitifier/Ramp oder Softplus
19
20. TechnologyScout
Deep Learning Systeme
Training ist alles!
• Training durch Fehlerminimierung
(least squares):
y: tatsächlicher Output
t: Erwartungswert (target)
• Manipulation der Gewichtungen
(stochastic gradient descent)
• Lösung: Back propagation
20
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
21. TechnologyScout
Deep Learning Systeme - Pro & Contra
• findet Dinge, die
einem nicht bewußt
waren
• Kann auch komplexe
Szenarien detektieren
21
• Kein direktes
Feedback, auf Grund
welcher Parameter eine
Tx ausgesteuert wurde
• Meist relativ langsam,
abhängig von der
Komplexität des Netzes
• Vanishing Gradients,
Overfitting
Pro Contra
23. TechnologyScout
Die schlechte Nachricht: es gibt keinen „heiligen
Gral“ und keine „best practice“
Die gute Nachricht: es gibt viele leistungsstarke
Methoden und schlaue Kombinationsmöglichkeiten
23
25. TechnologyScout
Wie funktioniert der
Betrug?
• Ein Schlüsselunternehmen
gründet Satellitenfirmen,
die Gewinn erwirtschaften
• Bei Fälligkeit der
Sozialabgaben werden
die Satelliten insolvent
• Ressourcen (Mitarbeiter,
Büros, Fahrzeuge etc.)
werden weiter gereicht an
den nächsten Satelliten
25
26. TechnologyScout
Problem
• ca. 250.000 aktive Unternehmen in Belgien in 2012
• Über längere Frist werden ca. 25% davon
irgendwann insolvent
• Nur wenige Fälle davon sind Betrug
• Ziel: kritische Fälle vor Insolvenz erkennen
26
27. TechnologyScout
Lösungsansatz• Graphentheorie: Egonetworks; Elimination von komplett unauffälligen
Unternehmen
• Trainingsdaten: Anreicherung von Fraud Cases durch SMOTE (Synthetic
Minority Oversampling Technique)
• 2 Datenszenarien:
• Basic (nur lokale Informationen zum Node selbst)
• Relational (plus Infos zu den Ressourcen aus dem Egonet)
• Rest fließt in ein neuronales Netz:
• Random Forest
• Naive Bayes
• Logistic Regression
27
28. TechnologyScout
Ergebnisse
• Random Forest liefert beste Ergebnisse
• AUC (Area under Curve) ROC (Receiver Operating
Characteristic) Trennschärfe zwischen Fraud und
nicht-Fraud: 85-88%
• Wichtig: zeitliche Analyse nach 6, 12 und 24
Monaten. ROC AUC nimmt ab. True Positives
nehmen zu.
28
30. TechnologyScout
Wie funktioniert der
Betrug?
• Typisches Beispiel Subscription Fraud:
• Betrüger schließt Subskriptionsvertrag mit
Mobilprovider ab
• Betrüger verkauft die Nutzung seines Telefons zu
günstigen Preisen weiter (vor allem für Long
Distance Calls)
• Betrüger verschwindet, bevor die Rechnung
bezahlt werden kann
30
31. TechnologyScout
Lösungsansatz
• Szenarien identifizieren
• Indikatoren für Betrug aus den Szenarien extrahieren
• Akkumulierte Daten je User aus CDR (Call Detail Record):
• IMSI (International Mobile Subscriber ID)
• Startdatum und -zeit des Calls, Dauer
• Angerufene Nummer
• Art des Calls (national/international)
31
32. TechnologyScout
Details
• Was für den einen Account „untypische Nutzung“ ist, ist für den anderen völlig
normal.
• Lösung: Differentialanalyse je Account durch User Profile History (UPH) und
Current User Profile (CUP): UPHnow = (1-𝜶) UPHold + 𝜶 CUP
• Fließen ein in:
• Regelbasiertes White Box System
• Supervised neural network (Multilayer Perceptron mit 1 hidden Layer, logistic-
sigmoidale Aktivierungsfunktion)
• 2 unsupervised neural networks (A-numbers: User Profile; B-Number: Monitor
auf Zielland des Anrufs)
• Kombination aller 4 Alarmfunktionen/Fraud Scores
32
35. TechnologyScout
The future is bright and
complex
• Parallelschaltung: Kombination verschiedener
Detektionswege kann zu besseren Ergebnissen
führen
• Reihenschaltung: Elimination von sauberen Fällen
durch Methode 1, Scoring durch Methode 2
• Ableitung: Regelgeneration durch Methode 1,
Anwendung und Scoring durch Methode 2
35
37. TechnologyScout
Literatur & Referenzen• W. McCulloch, W. Pitts, „A Logical Calculus of the Ideas Immanent in Nervous Activity“, Bulletin
of Mathematical Biophysics, Vol. 5 (1943), pp. 115-133
• A. Rosenblueth, N. Wiener and J. Bigelow, „Behavior, Purpose and Teleology“, Philosophy of
Science, Vol. 10, No. 1 (Jan., 1943), pp. 18-24
• V. Van Vlasselaer, B. Baesens, et. al., „Using Social Network Knowledge for Detecting Spider
Constructions in Social Security Fraud“, ASONAM’13 (2013 IEEE/ACM International Conference
on Advances in Social Networks Analysis and Mining), pp. 813-820
• N. V. Chawla, K. W. Bowyer, Lawrence O. Hall, W. Ph. Kegelmeyer, „SMOTE: Synthetic Minority
Over-sampling Technique“, Journal of Artificial Intelligence Research, Vol. 16 (2002) pp. 321–
357
• H. Verrelst, E. Lerouge, Y. Moreau, J. Vandewalle, Chr. Störmann, P. Burge, „A rule based and
neural network system for fraud detection in mobile communications“, European project
“Advanced Security for Personal Communication Technologies” (ASPeCT)
• T. Fawcett, F. Provost, „Adaptive Fraud Detection“, Data Mining and Knowledge Discovery, Vol.
1 (1997), pp. 291–316
37