Warum der Computer "Nein" sagt - Mehr Nachvollziehbarkeit dank Explainable AI

#WISSENTEILEN
Warum der Computer
"Nein" sagt
–
Mehr Nachvollziehbarkeit dank
Explainable AI
@_openKnowledge
Tim Wüllner | open knowledge GmbH

#WISSENTEILEN
Machine Learning Engineer
OPEN KNOWLEDGE
Tim Wüllner

#WISSENTEILEN
Explainable AI?
Warum?

Was ist Explainable AI (XAI)?
BLACK BOX
Input Output
XAI

XAI: Ein vollgepackter Rucksack
Eigenschaften:
• Kompatibilität
• Scope
• Vor- und Nachteile

https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-
that-showed-bias-against-women-idUSKCN1MK08G/?utm_source=morning_brew

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

https://www.labsix.org/physical-objects-that-fool-neural-nets/

„Warum wurde auf dem
Ultraschallbild ein Tumor
klassifiziert?“
„Warum wurde meine
Kreditanfrage
abgelehnt?“
„Warum habe ich ein
höheres Risiko an einer
Krankheit zu erkranken?“
Aber auch abseits dieser Probleme…

Performanz
Explainability
Lineare
Modelle
Decision
Trees
XGBoost
Deep Learning
Performanz
vs.
Explainability
Was hält uns eigentlich davon ab?

Der Usecase
„Ist an der Bike-Sharing Station
ein Fahrrad verfügbar oder
nicht?“

Bike-Sharing Dataset
Saison:
1. Spring
2. Summer
3. Autumn
4. Winter
Wetter:
1. Klar, teilweise bewölkt
2. nebelig, bewölkt
3. Leichter Schnee / Regen / Gewitter
4. Starker Regen + Gewitter + Hagel, Schnee
Gefühlte Temperatur
Target cnt:
Gesamtzahl aller
gemieteten Räder
(casual + registriert)
Luftfeuchtigkeit
Datum (2 Jahre)

Zeitreihe der gemieteten Räder

Data Preparation
One-Hot-
Encoding
Scaling
Berechnung
binärer
Target-
Variable
Preparation-Pipeline
Bike-Sharing
Dataset
Usecase
Dataset
bikes_available = cnt < threshold

Usecase-Dataset: Target-Verteilung

Usecase-Dataset: Target-Tagesverlauf
Kann so sein:
Aber auch so:

Ein Blick auf den XAI-Reiseplan…
0
Odds Ratio
?
?

Odds-Ratio am Beispiel
Logistic Regression
Wahrscheinlichkeit
Feature
• Simples Klassifikations-Modell
• Accuracy: 0.81

Analyse der Gewichte
Logistic
Regression
Linear
Regression
𝑦 = 𝑤0 + 𝑤1𝑥1 + … + 𝑤𝑛𝑥𝑛
Modell:
Erklärung:
„Wenn x1 um eine Einheit
vergrößert wird, vergrößert
sich y um w1!“

Logistic
Regression
Linear
Regression
𝑦 = 𝑤0 + 𝑤1𝑥1 + … + 𝑤𝑛𝑥𝑛
Modell:
Erklärung:
„Wenn x1 um eine Einheit
vergrößert wird, vergrößert
sich y um w1!“
Modell:
Erklärung:
𝑃 𝑦 = 1 =
1
1 + 𝑒(−(𝑤0+𝑤1𝑥1+ … +𝑤𝑛𝑥𝑛)

Ausgangsformel:
Umformen in Linear
Regression Stil:
l𝑜𝑔
𝑃(𝑦 = 1)
𝑃(𝑦 = 0)
= 𝑤0 + 𝑤1𝑥1 + … + 𝑤𝑛𝑥𝑛
𝑃 𝑦 = 1 =
1
1 + 𝑒(−(𝑤0+𝑤1𝑥1+ … +𝑤𝑛𝑥𝑛)
Erklärung:
„Wenn x1 um eine Einheit vergrößert
wird, vergrößert sich log(odds) um w1!“
𝑜𝑑𝑑𝑠 =
𝑃(𝑦 = 1)
𝑃(𝑦 = 0)
Beachte:

Odds Ratio
:
Nach weiteren
Umstellungen:
l𝑜𝑔 𝑜𝑑𝑑𝑠 = 𝑤0 + 𝑤1𝑥1 + … + 𝑤𝑛𝑥𝑛
Erklärung:
„Wenn x1 um eine Einheit vergrößert
wird, vergrößern sich die odds um den
Faktor 𝒆𝒘𝟏!“
𝑜𝑑𝑑𝑠𝑥𝑖+1
𝑜𝑑𝑑𝑠𝑥𝑖
= 𝑒𝑤𝑖  𝑜𝑑𝑑𝑠𝑥𝑖+1 = 𝑒𝑤𝑖𝑜𝑑𝑑𝑠𝑥𝑖

Ein Beispiel:
… mit Feature x1 = Temperatur
& Gewicht w1 = 0.7
„Wenn x1 um eine Einheit vergrößert wird, vergrößern
sich die odds um den Faktor 𝒆𝒘𝟏!“
„Wenn die Temperatur um einen Grad steigt, erhöht sich
die Chance (odds) um den Faktor 𝑒0.𝟕(= 2).
Also verdoppelt sich die Chance, dass Fahrräder
verfügbar sind.“*
*anderen Variablen bleiben gleich. Temperatur wurde nicht skaliert.

Usecase: Odds Ratio
𝑜𝑑𝑑𝑠𝑥𝑖+1
𝑜𝑑𝑑𝑠𝑥𝑖
= 𝑒𝑤𝑖

Odds Ratio
Vorteile
Modell-
Spezifisch
Scope
• Einfache Berechnung
• Stärke und Richtung des Einflusses
• Odds Ratio ist gewöhnungsbedürftig
• Logistic Regression meist zu schlechte
Genauigkeit
Kompatibilität
Nachteile
Global

1
?
?
Odds
Ratio

1
?
Odds-Ratio
Odds
Ratio
Permutation
Importance

Permutation Importance am Beispiel
Decision Tree
• Geeignet für nicht-lineare Klassifikation
• Accuracy: 0.92

XAI: Permutation Importance
Reference Score s
1 Fit &
Validate

Reference Score s
k-mal für
jedes Feature i:
1
Score sk
2
Zufällige
Werte für
Feature i
Fit &
Validate
Validate
K-mal

Reference Score s
k-mal für
jedes Feature i:
1
Score sk
2
Zufällige
Werte für
Feature i
𝑖𝑚𝑝𝑖 = 𝑠 −
1
𝐾
𝑘=1
𝐾
𝑠𝑘𝑖
Fit &
Validate
Validate
K-mal

Fit &
Validate
Reference Score s
k-mal für
jedes Feature i:
Validate
K-mal
Score sk
2
Zufällige
Werte für
Feature i
𝑖𝑚𝑝𝑖 = 𝑠 −
1
𝐾
𝑘=1
𝐾
𝑠𝑘𝑖
BLACK
BOX
BLACK
BOX
1

Usecase: Permutation Importance

Permutation Importance
Vorteile
Modell-
Agnostisch
Scope
• Einfache Berechnung
• Information über Sensitivität
• Direkter Zusammenhang zu Scores
• Nutzung pot. unrealistischer Daten
• Nur Stärke, nicht die Richtung des Einflusses
Kompatibilität
Nachteile
Global

2 Odds-Ratio
Permutation-
Importance
Odds
Ratio
Permutation
Importance
LIME

Last Stop: XGBoost Accuracy: 0.95

Local Interpretable Model-Agnostic
Explanations (LIME)
Feature 1
Feature
2
Rad nicht verfügbar
Rad Verfügbar
Modell-
Decision Boundary
Erkläre!

Explanations (LIME)
Feature 1
Feature
2
Erkläre!

Explanations (LIME)
Künstlich
erzeugte Daten
Rad Verfügbar
Generiere neue
Vorhersagen
in Nachbarschaft
&
Gewichte basierend
auf Kernel
1
Kernel

Explanations (LIME)
Surrogate-Modell-
Decision Boundary
Original Modell
Vorhersage
Rad Verfügbar
Fitte simples
Surrogate-Modell
auf generierte
Vorhersagen
2

Explanations (LIME)
Bestimme
Feature-Importance
des Surrogates
3
𝑦 = 𝑤0 + 𝑤1𝑥1 + … + 𝑤𝑛𝑥𝑛

Usecase: LIME
Zu erklärende
Instanz

Das geht auch mit Bildern…
https://christophm.github.io/interpretable-ml-book/lime.html

LIME
Vorteile
Modell-
Agnostisch
Scope
• Einblick in sehr komplexe Modelle
• Tabellarisch, Bilder und Texte
• Richtung und Stärke des Einflusses
• Wahl des Kernels hat großen Einfluss auf
Ergebnis
• Wahl der Nachbarschaft
Kompatibilität
Nachteile
Lokal

Ein Blick auf die Beute..
3
Odds-Ratio
Permutation-
Importance
LIME
Agnostisch
Spezifisch
Lokal Global

Wir brauchen einen größeren
Rucksack…
Odds
Raito
Permutation
Importance
LIME
SHAP
Partial
Dependency
Plots
Saliency
Maps

Zum Nachschlagen
Frei verfügbar unter:
https://christophm.github.io/
interpretable-ml-book/

A N S P R E C H P A R T N E R
TIM WÜLLNER
Machine Learning Engineer
Kaiserliche Post, Poststraße 1, 26122 Oldenburg
www.openknowledge.de
+49 (0) 441 4082 0
tim.wuellner@openknowledge.de
www.linkedin.com/in/tim-wuellner/
Ich lade dich auf einen
remote Kaffee ein ;-)
Hier direkt
Termin sichern!

#WISSENTEILEN
Zeit für
Fragen?
Immer!

Warum der Computer "Nein" sagt - Mehr Nachvollziehbarkeit dank Explainable AI

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von OPEN KNOWLEDGE GmbH

Mehr von OPEN KNOWLEDGE GmbH (20)

Warum der Computer "Nein" sagt - Mehr Nachvollziehbarkeit dank Explainable AI

Hinweis der Redaktion