TechnologyScout
Betrugserkennung
Techniken und Anwendungen
Dr. Volker Göbbels
TechnologyScout
TechnologyScout
Überblick - Roadmap
• Was ist Betrug?
• Allgemein: Was ist das und wie läuft es ab?
• Welche Methoden gibt es?
• Wie sehen die Einsatzszenarien aus?
• Was ist denn nun der optimale Ansatz?
2
TechnologyScout
–Wikipedia–
„Betrug ist eine vorsätzliche Täuschung, um
sich unfaire oder ungesetzliche Vorteile zu
verschaffen oder um ein Opfer um sein
gesetzliches Recht zu bringen.“
3
TechnologyScout
Was ist
Betrugserkennung?
• Überwacht werden:
• Transaktionen bei Banken
• Claims bei Versicherungen
• Call Records bei Telco Providern
• Daten laufen parallel in Livesystem und Fraud Detection (FD)
• Wenn FD Alarm schlägt:
• Banking: Transaktion wird verweigert
• Versicherung: Claim ausgesteuert zur manuellen Analyse
4
TechnologyScout
Die 4 Methoden
TechnologyScout
Methoden der
Betrugserkennung
1. Regelbasierte Systeme

2. Graphenbasierte Systeme

3. Expertensysteme

4. Deep Learning Systeme
6
IN
?
?
?
?
HOLD
OK
OKDENY
Time
Plan Gen Test
KE
2
1
3
4
TechnologyScout
Regelbasierte
Systeme
• Alle Transaktionen (Tx)
durchlaufen einen oder
mehrere Workflows

• Die einzelnen Schritte
bewerten Detail-
informationen einer Tx oder
beziehen aggregierte
Informationen ein

• Ergebnis: Fraud Score
7
IN
?
?
?
?
HOLD
OK
OKDENY
Time
TechnologyScout
Regelbasierte Systeme
Hintergrundwissen
• 2 Komponenten:
• In-Memory Datenbanken
• Regelengines
• Daten:
• Einzelne Transaktionsdaten
• Aggregierte Daten (Bsp.: durchschn. Umsatz)
8
TechnologyScout
Regelbasierte Systeme - Pro & Contra
• Ältestes und
bewährtes Modell
• Extrem schnell
• Direkte Begründung
der Aussteuerung für
einen Sachbearbeiter
durch Angabe der
gezogenen Regeln
9
• Erfordert viel
Branchenwissen
• Manche Szenarien
findet man schlecht
oder gar nicht
• „Human intelligence
based“
Pro Contra
TechnologyScout
Graphenbasierte
Systeme
• Transaktionen werden in
Knoten und Verbindungen
zerlegt
• Zu viele Verbindungen zu
einem Knoten deuten auf
Betrug
• Bestimmte Kennziffern in
Graphen können auf
Betrug hinweisen
10
TechnologyScout
Graphenbasierte Systeme
Hintergrundwissen
• Komponenten:
• Graphenbasierte oder relationale Datenbank
• Data Mining Algorithmen
• Visualisierung
• Mathematische Grundlagen: Graphentheorie
11
TechnologyScout
Graphenbasierte Systeme - Pro & Contra
• Findet ungewöhnliche
oder versteckte
Szenarien
(Spiderweb, circular
cash flow)
• Da graphisch orien-
tiert, oft einsichtig und
leicht verständlich
12
• Benötigt spezielle
Datenbank
• Am besten geeignet
für detailreiche
Datensätze
• Datenmengen:

1 Tx → n Nodes, n-1
Links (n=5-20)
Pro Contra
TechnologyScout
Expertensysteme
• „Expertensysteme“
• Nutzen Fallbeispiele &
Domänenwissen im
Knowledge Engineering
• Ablauf:
1. Plan: Plane mögliche
Lösungskandidaten
2. Generate: Generiere
Lösungskandidaten
3. Test: Teste ob
Kandidaten Problem
lösen
13
Plan Gen Test
KE
TechnologyScout
Expertensysteme
Hintergrundwissen
• Entwickelt ab 1965 zur
Klärung von
Massenspektren in der
Chemie
• Berühmtestes System:
DENDRAL (Dendritic
Algorithm)
• Heuristic DENDRAL
• MetaDENDRAL
14
TechnologyScout
Expertensysteme - Pro & Contra
• Lernt neue Szenarien
• Gut erforschte Technik
15
• Langsam bis sehr
langsam
• Lernfortschritt wird
durch Feedback der
Metadaten in die
Heuristik erreicht
(→manueller Eingriff)
Pro Contra
TechnologyScout
Deep Learning
Systeme
• Transaktionen durchlaufen
ein Netz aus
verarbeitenden Knoten
• Spezielle In- und Out-
Nodes
• Dazwischen „versteckte“
Processing Nodes
16
TechnologyScout
Deep Learning Systeme
Ein Perceptron
• Punkt (x,y):
• Unterhalb der Linie:
wahrscheinlich rot
• Oberhalb der Linie:
wahrscheinlich blau
• Mathematisch formuliert:



• Trainingsdaten zuführen &
Gewichtung w optimieren bzgl.
Outputfehler
17
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
TechnologyScout
Deep Learning Systeme
Viele Perceptrons - Ein Netz
• Jede Verbindung zwischen
Knoten hat eine Gewichtung
w’ analog zu denen der
Perceptrons selbst
• In diesem Beispiel:
• 3 Input-Werte
• 2 Output-Werte
• 1 hidden Layer
18
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
TechnologyScout
Deep Learning Systeme
Aktivierungsfunktionen f(x)
• Eine Linearkombination von linearen
Funktionen f(x) liefert immer noch eine
lineare Funktion
• Ausweg = nicht lineare Funktionen wie:
• Sigma-Funktion (logistic function)
• hyperbolischer Tangens (tanh)
• Heaviside Funktion
• Recitifier/Ramp oder Softplus
19
TechnologyScout
Deep Learning Systeme
Training ist alles!
• Training durch Fehlerminimierung
(least squares):





y: tatsächlicher Output

t: Erwartungswert (target)
• Manipulation der Gewichtungen
(stochastic gradient descent)
• Lösung: Back propagation



20
Illustrationen von Ivan Vasilev,
https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
TechnologyScout
Deep Learning Systeme - Pro & Contra
• findet Dinge, die
einem nicht bewußt
waren
• Kann auch komplexe
Szenarien detektieren
21
• Kein direktes
Feedback, auf Grund
welcher Parameter eine
Tx ausgesteuert wurde
• Meist relativ langsam,
abhängig von der
Komplexität des Netzes
• Vanishing Gradients,
Overfitting
Pro Contra
TechnologyScout
Was ist denn nun der
heilige Gral?
TechnologyScout
Die schlechte Nachricht: es gibt keinen „heiligen
Gral“ und keine „best practice“
Die gute Nachricht: es gibt viele leistungsstarke
Methoden und schlaue Kombinationsmöglichkeiten
23
TechnologyScout
Beispiel 1
Sozialabgabenbetrug in Belgien
TechnologyScout
Wie funktioniert der
Betrug?
• Ein Schlüsselunternehmen
gründet Satellitenfirmen,
die Gewinn erwirtschaften
• Bei Fälligkeit der
Sozialabgaben werden
die Satelliten insolvent
• Ressourcen (Mitarbeiter,
Büros, Fahrzeuge etc.)
werden weiter gereicht an
den nächsten Satelliten
25
TechnologyScout
Problem
• ca. 250.000 aktive Unternehmen in Belgien in 2012
• Über längere Frist werden ca. 25% davon
irgendwann insolvent
• Nur wenige Fälle davon sind Betrug
• Ziel: kritische Fälle vor Insolvenz erkennen
26
TechnologyScout
Lösungsansatz• Graphentheorie: Egonetworks; Elimination von komplett unauffälligen
Unternehmen
• Trainingsdaten: Anreicherung von Fraud Cases durch SMOTE (Synthetic
Minority Oversampling Technique)
• 2 Datenszenarien:
• Basic (nur lokale Informationen zum Node selbst)
• Relational (plus Infos zu den Ressourcen aus dem Egonet)
• Rest fließt in ein neuronales Netz:
• Random Forest
• Naive Bayes
• Logistic Regression
27
TechnologyScout
Ergebnisse
• Random Forest liefert beste Ergebnisse
• AUC (Area under Curve) ROC (Receiver Operating
Characteristic) Trennschärfe zwischen Fraud und
nicht-Fraud: 85-88%
• Wichtig: zeitliche Analyse nach 6, 12 und 24
Monaten. ROC AUC nimmt ab. True Positives
nehmen zu.
28
TechnologyScout
Beispiel 2
Betrug in Mobilnetzwerken
TechnologyScout
Wie funktioniert der
Betrug?
• Typisches Beispiel Subscription Fraud:
• Betrüger schließt Subskriptionsvertrag mit
Mobilprovider ab
• Betrüger verkauft die Nutzung seines Telefons zu
günstigen Preisen weiter (vor allem für Long
Distance Calls)
• Betrüger verschwindet, bevor die Rechnung
bezahlt werden kann
30
TechnologyScout
Lösungsansatz
• Szenarien identifizieren
• Indikatoren für Betrug aus den Szenarien extrahieren
• Akkumulierte Daten je User aus CDR (Call Detail Record):
• IMSI (International Mobile Subscriber ID)
• Startdatum und -zeit des Calls, Dauer
• Angerufene Nummer
• Art des Calls (national/international)
31
TechnologyScout
Details
• Was für den einen Account „untypische Nutzung“ ist, ist für den anderen völlig
normal.
• Lösung: Differentialanalyse je Account durch User Profile History (UPH) und
Current User Profile (CUP): UPHnow = (1-𝜶) UPHold + 𝜶 CUP
• Fließen ein in:
• Regelbasiertes White Box System
• Supervised neural network (Multilayer Perceptron mit 1 hidden Layer, logistic-
sigmoidale Aktivierungsfunktion)
• 2 unsupervised neural networks (A-numbers: User Profile; B-Number: Monitor
auf Zielland des Anrufs)
• Kombination aller 4 Alarmfunktionen/Fraud Scores
32
TechnologyScout
Ergebnisse
• AUC ROC Trennschärfe für Testdaten: 87,2%
• AUC ROC Trennschärfe für Echtdaten: 85,6%
33
TechnologyScout
Ausblick
TechnologyScout
The future is bright and
complex
• Parallelschaltung: Kombination verschiedener
Detektionswege kann zu besseren Ergebnissen
führen
• Reihenschaltung: Elimination von sauberen Fällen
durch Methode 1, Scoring durch Methode 2
• Ableitung: Regelgeneration durch Methode 1,
Anwendung und Scoring durch Methode 2
35
TechnologyScout
Dr. Volker
Göbbels
TechnologyScout
Innovationsmanagement
Betrugserkennung
eCommerce Consulting
36
TechnologyScout
Literatur & Referenzen• W. McCulloch, W. Pitts, „A Logical Calculus of the Ideas Immanent in Nervous Activity“, Bulletin
of Mathematical Biophysics, Vol. 5 (1943), pp. 115-133
• A. Rosenblueth, N. Wiener and J. Bigelow, „Behavior, Purpose and Teleology“, Philosophy of
Science, Vol. 10, No. 1 (Jan., 1943), pp. 18-24
• V. Van Vlasselaer, B. Baesens, et. al., „Using Social Network Knowledge for Detecting Spider
Constructions in Social Security Fraud“, ASONAM’13 (2013 IEEE/ACM International Conference
on Advances in Social Networks Analysis and Mining), pp. 813-820
• N. V. Chawla, K. W. Bowyer, Lawrence O. Hall, W. Ph. Kegelmeyer, „SMOTE: Synthetic Minority
Over-sampling Technique“, Journal of Artificial Intelligence Research, Vol. 16 (2002) pp. 321–
357
• H. Verrelst, E. Lerouge, Y. Moreau, J. Vandewalle, Chr. Störmann, P. Burge, „A rule based and
neural network system for fraud detection in mobile communications“, European project
“Advanced Security for Personal Communication Technologies” (ASPeCT)
• T. Fawcett, F. Provost, „Adaptive Fraud Detection“, Data Mining and Knowledge Discovery, Vol.
1 (1997), pp. 291–316
37

Fraud detection

  • 1.
  • 2.
    TechnologyScout Überblick - Roadmap •Was ist Betrug? • Allgemein: Was ist das und wie läuft es ab? • Welche Methoden gibt es? • Wie sehen die Einsatzszenarien aus? • Was ist denn nun der optimale Ansatz? 2
  • 3.
    TechnologyScout –Wikipedia– „Betrug ist einevorsätzliche Täuschung, um sich unfaire oder ungesetzliche Vorteile zu verschaffen oder um ein Opfer um sein gesetzliches Recht zu bringen.“ 3
  • 4.
    TechnologyScout Was ist Betrugserkennung? • Überwachtwerden: • Transaktionen bei Banken • Claims bei Versicherungen • Call Records bei Telco Providern • Daten laufen parallel in Livesystem und Fraud Detection (FD) • Wenn FD Alarm schlägt: • Banking: Transaktion wird verweigert • Versicherung: Claim ausgesteuert zur manuellen Analyse 4
  • 5.
  • 6.
    TechnologyScout Methoden der Betrugserkennung 1. RegelbasierteSysteme
 2. Graphenbasierte Systeme
 3. Expertensysteme
 4. Deep Learning Systeme 6 IN ? ? ? ? HOLD OK OKDENY Time Plan Gen Test KE 2 1 3 4
  • 7.
    TechnologyScout Regelbasierte Systeme • Alle Transaktionen(Tx) durchlaufen einen oder mehrere Workflows
 • Die einzelnen Schritte bewerten Detail- informationen einer Tx oder beziehen aggregierte Informationen ein
 • Ergebnis: Fraud Score 7 IN ? ? ? ? HOLD OK OKDENY Time
  • 8.
    TechnologyScout Regelbasierte Systeme Hintergrundwissen • 2Komponenten: • In-Memory Datenbanken • Regelengines • Daten: • Einzelne Transaktionsdaten • Aggregierte Daten (Bsp.: durchschn. Umsatz) 8
  • 9.
    TechnologyScout Regelbasierte Systeme -Pro & Contra • Ältestes und bewährtes Modell • Extrem schnell • Direkte Begründung der Aussteuerung für einen Sachbearbeiter durch Angabe der gezogenen Regeln 9 • Erfordert viel Branchenwissen • Manche Szenarien findet man schlecht oder gar nicht • „Human intelligence based“ Pro Contra
  • 10.
    TechnologyScout Graphenbasierte Systeme • Transaktionen werdenin Knoten und Verbindungen zerlegt • Zu viele Verbindungen zu einem Knoten deuten auf Betrug • Bestimmte Kennziffern in Graphen können auf Betrug hinweisen 10
  • 11.
    TechnologyScout Graphenbasierte Systeme Hintergrundwissen • Komponenten: •Graphenbasierte oder relationale Datenbank • Data Mining Algorithmen • Visualisierung • Mathematische Grundlagen: Graphentheorie 11
  • 12.
    TechnologyScout Graphenbasierte Systeme -Pro & Contra • Findet ungewöhnliche oder versteckte Szenarien (Spiderweb, circular cash flow) • Da graphisch orien- tiert, oft einsichtig und leicht verständlich 12 • Benötigt spezielle Datenbank • Am besten geeignet für detailreiche Datensätze • Datenmengen:
 1 Tx → n Nodes, n-1 Links (n=5-20) Pro Contra
  • 13.
    TechnologyScout Expertensysteme • „Expertensysteme“ • NutzenFallbeispiele & Domänenwissen im Knowledge Engineering • Ablauf: 1. Plan: Plane mögliche Lösungskandidaten 2. Generate: Generiere Lösungskandidaten 3. Test: Teste ob Kandidaten Problem lösen 13 Plan Gen Test KE
  • 14.
    TechnologyScout Expertensysteme Hintergrundwissen • Entwickelt ab1965 zur Klärung von Massenspektren in der Chemie • Berühmtestes System: DENDRAL (Dendritic Algorithm) • Heuristic DENDRAL • MetaDENDRAL 14
  • 15.
    TechnologyScout Expertensysteme - Pro& Contra • Lernt neue Szenarien • Gut erforschte Technik 15 • Langsam bis sehr langsam • Lernfortschritt wird durch Feedback der Metadaten in die Heuristik erreicht (→manueller Eingriff) Pro Contra
  • 16.
    TechnologyScout Deep Learning Systeme • Transaktionendurchlaufen ein Netz aus verarbeitenden Knoten • Spezielle In- und Out- Nodes • Dazwischen „versteckte“ Processing Nodes 16
  • 17.
    TechnologyScout Deep Learning Systeme EinPerceptron • Punkt (x,y): • Unterhalb der Linie: wahrscheinlich rot • Oberhalb der Linie: wahrscheinlich blau • Mathematisch formuliert:
 
 • Trainingsdaten zuführen & Gewichtung w optimieren bzgl. Outputfehler 17 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  • 18.
    TechnologyScout Deep Learning Systeme VielePerceptrons - Ein Netz • Jede Verbindung zwischen Knoten hat eine Gewichtung w’ analog zu denen der Perceptrons selbst • In diesem Beispiel: • 3 Input-Werte • 2 Output-Werte • 1 hidden Layer 18 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  • 19.
    TechnologyScout Deep Learning Systeme Aktivierungsfunktionenf(x) • Eine Linearkombination von linearen Funktionen f(x) liefert immer noch eine lineare Funktion • Ausweg = nicht lineare Funktionen wie: • Sigma-Funktion (logistic function) • hyperbolischer Tangens (tanh) • Heaviside Funktion • Recitifier/Ramp oder Softplus 19
  • 20.
    TechnologyScout Deep Learning Systeme Trainingist alles! • Training durch Fehlerminimierung (least squares):
 
 
 y: tatsächlicher Output
 t: Erwartungswert (target) • Manipulation der Gewichtungen (stochastic gradient descent) • Lösung: Back propagation
 
 20 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  • 21.
    TechnologyScout Deep Learning Systeme- Pro & Contra • findet Dinge, die einem nicht bewußt waren • Kann auch komplexe Szenarien detektieren 21 • Kein direktes Feedback, auf Grund welcher Parameter eine Tx ausgesteuert wurde • Meist relativ langsam, abhängig von der Komplexität des Netzes • Vanishing Gradients, Overfitting Pro Contra
  • 22.
    TechnologyScout Was ist dennnun der heilige Gral?
  • 23.
    TechnologyScout Die schlechte Nachricht:es gibt keinen „heiligen Gral“ und keine „best practice“ Die gute Nachricht: es gibt viele leistungsstarke Methoden und schlaue Kombinationsmöglichkeiten 23
  • 24.
  • 25.
    TechnologyScout Wie funktioniert der Betrug? •Ein Schlüsselunternehmen gründet Satellitenfirmen, die Gewinn erwirtschaften • Bei Fälligkeit der Sozialabgaben werden die Satelliten insolvent • Ressourcen (Mitarbeiter, Büros, Fahrzeuge etc.) werden weiter gereicht an den nächsten Satelliten 25
  • 26.
    TechnologyScout Problem • ca. 250.000aktive Unternehmen in Belgien in 2012 • Über längere Frist werden ca. 25% davon irgendwann insolvent • Nur wenige Fälle davon sind Betrug • Ziel: kritische Fälle vor Insolvenz erkennen 26
  • 27.
    TechnologyScout Lösungsansatz• Graphentheorie: Egonetworks;Elimination von komplett unauffälligen Unternehmen • Trainingsdaten: Anreicherung von Fraud Cases durch SMOTE (Synthetic Minority Oversampling Technique) • 2 Datenszenarien: • Basic (nur lokale Informationen zum Node selbst) • Relational (plus Infos zu den Ressourcen aus dem Egonet) • Rest fließt in ein neuronales Netz: • Random Forest • Naive Bayes • Logistic Regression 27
  • 28.
    TechnologyScout Ergebnisse • Random Forestliefert beste Ergebnisse • AUC (Area under Curve) ROC (Receiver Operating Characteristic) Trennschärfe zwischen Fraud und nicht-Fraud: 85-88% • Wichtig: zeitliche Analyse nach 6, 12 und 24 Monaten. ROC AUC nimmt ab. True Positives nehmen zu. 28
  • 29.
  • 30.
    TechnologyScout Wie funktioniert der Betrug? •Typisches Beispiel Subscription Fraud: • Betrüger schließt Subskriptionsvertrag mit Mobilprovider ab • Betrüger verkauft die Nutzung seines Telefons zu günstigen Preisen weiter (vor allem für Long Distance Calls) • Betrüger verschwindet, bevor die Rechnung bezahlt werden kann 30
  • 31.
    TechnologyScout Lösungsansatz • Szenarien identifizieren •Indikatoren für Betrug aus den Szenarien extrahieren • Akkumulierte Daten je User aus CDR (Call Detail Record): • IMSI (International Mobile Subscriber ID) • Startdatum und -zeit des Calls, Dauer • Angerufene Nummer • Art des Calls (national/international) 31
  • 32.
    TechnologyScout Details • Was fürden einen Account „untypische Nutzung“ ist, ist für den anderen völlig normal. • Lösung: Differentialanalyse je Account durch User Profile History (UPH) und Current User Profile (CUP): UPHnow = (1-𝜶) UPHold + 𝜶 CUP • Fließen ein in: • Regelbasiertes White Box System • Supervised neural network (Multilayer Perceptron mit 1 hidden Layer, logistic- sigmoidale Aktivierungsfunktion) • 2 unsupervised neural networks (A-numbers: User Profile; B-Number: Monitor auf Zielland des Anrufs) • Kombination aller 4 Alarmfunktionen/Fraud Scores 32
  • 33.
    TechnologyScout Ergebnisse • AUC ROCTrennschärfe für Testdaten: 87,2% • AUC ROC Trennschärfe für Echtdaten: 85,6% 33
  • 34.
  • 35.
    TechnologyScout The future isbright and complex • Parallelschaltung: Kombination verschiedener Detektionswege kann zu besseren Ergebnissen führen • Reihenschaltung: Elimination von sauberen Fällen durch Methode 1, Scoring durch Methode 2 • Ableitung: Regelgeneration durch Methode 1, Anwendung und Scoring durch Methode 2 35
  • 36.
  • 37.
    TechnologyScout Literatur & Referenzen•W. McCulloch, W. Pitts, „A Logical Calculus of the Ideas Immanent in Nervous Activity“, Bulletin of Mathematical Biophysics, Vol. 5 (1943), pp. 115-133 • A. Rosenblueth, N. Wiener and J. Bigelow, „Behavior, Purpose and Teleology“, Philosophy of Science, Vol. 10, No. 1 (Jan., 1943), pp. 18-24 • V. Van Vlasselaer, B. Baesens, et. al., „Using Social Network Knowledge for Detecting Spider Constructions in Social Security Fraud“, ASONAM’13 (2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining), pp. 813-820 • N. V. Chawla, K. W. Bowyer, Lawrence O. Hall, W. Ph. Kegelmeyer, „SMOTE: Synthetic Minority Over-sampling Technique“, Journal of Artificial Intelligence Research, Vol. 16 (2002) pp. 321– 357 • H. Verrelst, E. Lerouge, Y. Moreau, J. Vandewalle, Chr. Störmann, P. Burge, „A rule based and neural network system for fraud detection in mobile communications“, European project “Advanced Security for Personal Communication Technologies” (ASPeCT) • T. Fawcett, F. Provost, „Adaptive Fraud Detection“, Data Mining and Knowledge Discovery, Vol. 1 (1997), pp. 291–316 37