FEHLENDE DATEN? (K)EIN PROBLEM!: Die Kunst der Data Imputation

Fehlende Daten? (K)Ein Problem!
#WISSENTEILEN
Lars Röwekamp | @mobileLarson

@mobileLarson
CIO New Technologies
OPEN KNOWLEDGE
Lars Röwekamp
(Architecture, Microservices, Cloud, AI & ML)
Das bin ich >

Fehlende Daten
Was genau bedeutet
das eigentlich und wann
bzw. warum ist das
ein Problem?
00

Fehlende Daten Was ist das überhaupt?
6
Blanks
in CSV Datei
NULL
in RDBMS
???
egal wo
NaN
in Zahlen
N/A
in Daten

Height Weight Sex Temperature Pulse BP Systolic
71 NaN M 98.6 NaN 120
61 120 98.2 77 -99999
65 160 M 98.3 NaN 140
63 0 N/A 98.9 55 100

Height Weight Sex Pregnant Pulse BP Systolic
71 140 M N/A 71 120
61 120 F yes 77 110
65 160 M N/A 62 140
63 125 F no 55 100

71 140 M N/A 71 120
61 120 F yes 77 110
65 160 M N/A 62 140
63 125 F no 55 100
„Not Avialable“ oder „Not Applicable“?

71 140 M N/A 71 120
61 120 F yes 0 NaN
65 160 M N/A 62 140
63 125 F no 55 100

71 140 M N/A 71 120
61 120 F yes 0 NaN
65 160 M N/A 62 140
63 125 F no 55 100
„Missing Data“ oder „Computation Error“

Fehlende Daten Welche Pattern gibt es?
71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 160 M 98.3 NaN 140
63 125 F 98.9 55 100

71 NaN M 98.6 NaN 120
61 120 98.2 77 110
65 160 M NaN 62 140
63 125 F 98.9 55 100
„Random Missing“ (aka Daten fehlen willkürlich)

71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 NaN M 98.3 NaN 140
63 125 F 98.9 55 100
„Uniform Missing“ (aka einheitliches Muster)

71 120 M 98.6 70 120
61 120 NaN NaN NaN
65 160 M 98.3 62 140
63 125 F 98.9 NaN NaN
„Monotonic Missing“ (aka Subset Muster)

Fehlende Daten Was kann ich tun?
71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100

71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100
„Nix tun“ (aka der Algorithmus kümmert sich drum)
Warnung: Funktioniert nur bei bestimmten Algorithmen.

71 160 M 98.6 65 120
61 120 F 98.2 77 110
65 140 M 98.5 62 140
63 125 F 98.9 55 100
„Daten organisieren“ (aka der Mensch kümmert sich drum)
Warnung: Nur sehr begrenzt möglich, z.B. durch Follow-Ups.

71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100
„Datensatz entfernen“ (aka Complete Case Analysis)
Warnung: <5%, sonst zu viel Info-Verlust & Bias.

71 NaN M 98.6 NaN 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100
„Variable entfernen“ (aka Complete Feature Analysis)
Warnung: evtl. Verlust wichtiger Eigenschaften -> Imputation?

71 NaN M 98.6 72 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100
„berechnen“ (aka Statistical Imputation)
Warnung: relativ einfach, aber stark limitiert.

71 NaN M 98.6 71 120
61 120 F 98.2 77 110
65 NaN M NaN 62 140
63 125 F 98.9 55 100
„modellieren“ (aka ML-Method Imputation)
Warnung: Kann beliebig komplex werden.

Fehlende Daten Rubin‘s Taxonomy (1976)
Missing Completely at Random
Missing at Random
Missing not at Random
MCAR
MAR
MNAR

MCAR
Missing
Completely
at Random
Das Fehlen der Daten ist unabhängig von
beobachteten/bekannten und unabhängig
von nicht beobachten/bekannten Daten.
MCAR impliziert, dass die fehlenden Daten
nicht systematisch mit Variablen im Datensatz
zusammenhängen.
Fehlende Daten Rubin‘s Taxonomy

MAR
Missing
at Random
Das Fehlen der Daten ist abhängig von
den beobachteten/bekannten Daten aber
nicht von nicht beobachten/bekannten Daten.
MAR impliziert, dass die fehlenden Daten
systematisch mit Variablen im Datensatz
zusammenhängen.

MNAR
Missing not
at Random
Das Fehlen der Daten ist abhängig von
nicht beobachteten/bekannten Daten.
MNAR impliziert, dass die fehlenden Daten
systematisch mit Variablen außerhalb des
Datensatzes zusammenhängen.

Fehlende Daten
MCAR
fehlende Daten
können ggf. entfernt
oder berechnet
werden
MAR
fehlende Daten
können ggf.
via ML modelliert
werden
MNAR
weiteres
Domänenwissen
ist notwendig

Fehlende Daten Herausforderung MNAR
„Wähle einen
willkürlichen
Wert zwischen
1 und 10.“

Domänenwissen innerhalb der Daten:
• mehr gerade als ungrade Werte (11 vs. 5)
• mean = 6.0

• mean = 6.0
Domänenwissen außerhalb der Daten:
• Menschen tendieren dazu eher mittlere Werte zu wählen

• mean = 6.0
• Geschlecht lässt sich ggf von dem Vornamen ableiten
• evtl. gibt es Statistiken über genderspezifische Vorlieben?

• mean = 6.0
• Geschlecht lässt sich ggf von dem Vornamen ableiten
• evtl. gibt es Statistiken über genderspezifische Vorlieben?
• In China: 6 & 8 Glückszahlen / 4 & 10 Unglückszahlen

Fehlende Daten Takeaways
Es gilt den Grund für das Fehlen von Daten zu analysieren
und Muster zu verstehen.
Der Typ der fehlenden Daten gemäß Rubin – MCAR, MAR,
MNAR - gibt die Optionen vor.
Fehlende Daten vom Typ MNAR benötigen zusätzliches
Domänenwissen, um sie sinnvoll zu berechnen/modellieren.

Visualisierung
Wie bekomme ich
einen Eindruck davon,
was fehlt?
01

Visualisierung Poor-Man‘s-Version
Domäne: London Housing Data
• 1071 Datensätze

Visualisierung Poor-Man‘s-Version
Domäne: London Housing Data
• 1071 Datensätze
• < 100 Missing Data
• >= 600 Missing Data

Visualisierung Sorted Bar Plot
missingno.bar(london_housing, color='deepskyblue', sort='descending')

Visualisierung Co-Missing Matrix
missingno.matrix(london_housing, color=(0.27, 0.52, 1.0))

Visualisierung Correlation Heatmap
missingno.heatmap(london_housing, cmap="RdYlGn")

Visualisierung Dendrogram
missingno.dendrogram(london_housing)

Visualisierung Dendrogram
missingno.dendrogram(london_housing, method="ward")

Visualisierung Takeaways
Visualisierung als Teil der EDA hilft dabei, das Ausmaß der
fehlenden Daten schnell und gezielt abzuschätzen.
Die verschiedenen Diagrammtypen geben Hinweise auf
die Muster der fehlenden Daten.
Erkenntnisse können zur Herleitung der passenden
Imputations-Strategie genutzt werden.

Univariate
Imputation
Wie lassen sich fehlende
Werte einfach und
sinnvoll ersetzen?
02

Imputation Definition
„Data imputation is the process of replacing missing
or incomplete data points in a dataset with estimated
or substituted values.
These estimated values are typically derived from the
available data, statistical methods, or machine
learning algorithms.“

„Univariate feature imputation implies that we are
only considering the values of a single column when
performing imputation.“
„Multivariate feature imputation, on the other hand,
involves taking into account other features in the
dataset when performing imputation.“
Imputation Definition

Interpolation via Linear, LOCF & NOCB
Werte sind in einer kontinuierlichen (Zeit-)Reihe
„Hallo Nachbar!“ (aka Vorgänger / Nachfolger)
Zeit

„Immer weiter so“ (aka Last Observation Carried Forward)
Zeit
Forward Filling

Zeit
Forward Filling
„Immer weiter so“ (aka Last Observation Carried Forward)

„Ein Blick zurück“ (aka Next Observation Carried Backwards)
Zeit
Backward Filling

Zeit
Backward Filling
„Ein Blick zurück“ (aka Next Observation Carried Backwards)

Zeit
Linear Filling
„Irgendwo dazwischen“ (aka Linear Filling)

PRO CONS
sehr einfache Verfahren
für Zeitreihen geeignet
Annahme zeitlicher Kontinuität
potenzieller Bias
Probleme bei Saisonalität
Forward, wenn der letzte Wert passend zu sein schein.
Backward, wenn der nächste Wert passend zu sein schein.
Linear, wenn aufsteigende/fallende Tendenz.
Linear & Seasonal Adjustment, bei Saisonalität

Univariante Imputation Mean, Median et al
nur für „numerische“ Features und MCAR, wenn <5%
„Reine Mathematik“ (aka Statistic Stubstitution)
Age Sex
25 M
NaN N/A
61 M
27 F
28 M

nur für „numerische“ Features und MCAR, wenn <5%
„Reine Mathematik“ (aka Statistic Stubstitution)
Age Sex
25 M
NaN N/A
61 M
27 F
28 M
Age Sex
25 M
36,8 / 30 N/A
61 M
27 F
28 M
Mean = 36,8
Median = 30,0

„Mehrheitsprinzip“ (aka Mode Imputation)
3 x Male
1 x Female
geeignet (auch) für „categorical“ Features und MCAR, wenn <5%
Age Sex
25 M
30 M
61 M
27 F
28 M
Age Sex
25 M
30 N/A
61 M
27 F
28 M

Mean, Median, Mode
Mean
Median
Mode

PRO CONS
sehr einfaches Verfahren
erhält die Datenstruktur
ignoriert Abhängigkeiten
kann Daten verzehren
Mean, bei MCAR und Normalverteilung numerischer Werte.
Median, bei skewed Data oder Outliern.
Mode, bei Imputation von Categorical Variables

Simple Technics Takeaways
Für fortlaufende Werte / Zeitreihen eignen sich
Interpolation-Verfahren, wie Linear, LOCF & NOCB
Für MCAR Missingness oder bei tolerierbarem Bias eignen
sich Univariante Imputation oder Deletion.

Simple Technics by Example
LOCF & NOCB Imputation
MODE Imputation aka most frequent
MIN & MAX Value Imputation
Mean Value Imputation

Multi-Variant
Imputation
Wie lassen sich
fehlende Werte
besser ersetzen?
03

Multi Imputation Regression, Classification et al
„Ich weiß etwas!“ (aka Feature Abhängigkeit)
Age Income Gender
33 12.771 F
18 12.000 M
N/A 13.542 M

Age Income Gender
33 12.771 F
18 12.000 M
N/A 13.542 M
Age
Income
10 20 30 40 50
10T
20T

Age Income Gender
33 12.771 F
18 12.000 M
35,5 13.542 M
Age
Income
10 20 30 40 50
10T
20T
Achtung: setzt Linearität voraus und ist sensitive für Outlier!

Multi Imputation Hot Deck, Cold Deck
Age Income Gender
33 12.771 F
18 12.000 M
33 NaN M
40 15.000 F
42 16.627 M
„Ich kenne da einen!“ (aka Vorbild Abhängigkeit)

Age Income Gender
33 12.771 F
18 12.000 M
33 NaN M
40 15.000 F
42 16.627 M
Age Income Gender
33 12.771 F
18 12.000 M
33 12.771 M
40 15.000 F
42 16.627 M
Donor
33 / 12.771

Age Income Gender
33 12.771 F
18 12.000 M
20 NaN M
40 15.000 F
42 16.627 M
Age Income Gender
33 12.771 F
18 12.000 M
20 12.000 M
40 15.000 F
42 16.627 M
Donor
20 / 12.000
Achtung: setzt „Gleichheit“ voraus, Gefahr des „single Donator“.

Multi Imputation Regression vs. Hot Deck
Source: https://pub.aimind.so/hot-deck-imputation-bridging-the-gaps-in-missing-data-32bdfdee2f40

Multi Imputation MICE*
Age Income Gender
33 NaN F
18 12.000 N/A
NaN 13.542 M
„Step by Step!“ (aka mehrstufiges Verfahren)
*Multiple Imputations by Chanied Equations

Multi Imputation MICE
Age Income Gender
33 NaN F
18 12.000 N/A
NaN 13.542 M
Step 1: Simple Imputation eg via Mean, Median, Mode
Age Income Gender
33 12.771 F
18 12.000 F
25.5 13.542 M

Age Income Gender
33 12.771 F
18 12.000 F
25.5 13.542 M
Step 2: Set-Back 1st Feature*
Age Income Gender
33 12.771 F
18 12.000 F
NaN 13.542 M
*Feature mit den wenigsten fehlenden Werten.

Age Income Gender
33 12.771 F
18 12.000 F
N/A 13.542 M
Step 3: Advanced Imputation 1st Feature eg via Regression
Age Income Gender
33 12.771 F
18 12.000 F
35.5 13.542 M

Age Income Gender
33 12.771 F
18 12.000 F
35.5 13.542 M
Step 4: Set-Back 2nd Feature*
Age Income Gender
33 NaN F
18 12.000 F
35.5 13.542 M
*Feature mit den wenigsten fehlenden Werten.

Age Income Gender
33 NaN F
18 12.000 F
35.5 13.542 M
Step 5: Advanced Imputation 2nd Feature eg via Regression
Age Income Gender
33 13.103 F
18 12.000 F
35.5 13.542 M

Age Income Gender
33 NaN F
18 12.000 N/A
NaN 13.542 M
“Multiple Imputation by Chained Equations“
Age Income Gender
33 12.771 F
18 12.000 F
25.5 13.542 M
Age Income Gender
33 12.771 F
18 12.000 F
NaN 13.542 M
Age Income Gender
33 12.771 F
18 12.000 F
N/A 13.542 M
Age Income Gender
33 12.771 F
18 12.000 F
35.5 13.542 M
Age Income Gender
33 NaN F
18 12.000 F
35.5 13.542 M
Age Income Gender
33 NaN F
18 12.000 F
35.5 13.542 M
Age Income Gender
33 13.103 F
18 12.000 F
35.5 13.542 M
Age Income Gender
33 13.103 F
18 12.000 M
35.5 13.542 M
mean
imputation
age back
to NaN
linear regression
age – income, gender
income back
to NaN
linear reg.
predict age
(35.5 != 25.5)
linear regression
income – age, gender
linear reg.
predict income
(13.102 != 12.771)
… same
for gender

imputed Data
real Data

Multi Imputation The Big Picture (so far)
with Trend
with Trend &
Seasonality
Categorical
Continuous
Mean, Median, Mode,
Random Sample Impute
Linear Interpolation
Season Adjustment
& Interpolation
N/A as Class / Level,
Multiple Imputation
Logistic Regression
Mean, Median, Mode,
Multiple Imputation
Linear Regression
without Trend
Handling
Missing Data
Deletion
Imputation
Deleting Rows
Pairwise Deletion
Deleting Columns
Time-Series
Problem
General
Problem

Multi-Variant Imputation nutzen mehrere Features, wie z.B.
bei Regression / Classification oder Hot Deck Imputation
Multi-Variant Imputation mit verketteten Gleichungen
aka MICE eignen sich gut bei mehreren fehlenden Features.
Multi-Variant eignet sich gut für MAR und kann verwendet
werden, um Statistik in das Modell zu bringen.
Multi Imputation Takeaways

Hot Deck Imputation Cold Deck Imputation
Multi Imputation by Example

Model Imputation
Wie lassen sich fehlende
Werte via ML-Verfahren
sinnvoll ersetzen?
04

Model Imputation K-Nearest Neighbors
Klasse A
Klasse B
„Hallo Nachbarn!“ (aka Gesetzt der Nähe)
Idee: Nachbarn ähneln sich.
Frage: Welcher Nachbar ist am häufigsten?
Achtung: bei kleinem K ungenau, bei großem K langsam!

Source: https://amueller.github.io/COMS4995-s18/slides/aml-08-021218-imputation-feature-selection/#45
Model Imputation K-Nearest Neighbors
Mean Imputation vs. KNN Imputation

Model Imputation Miss Forrest
„Train, Predict, Repeat!“ (aka x*Random Forrest)
Source: https://sourabharsh.medium.com/model-based-methods-for-imputation-685a15680037

Model Imputation Miss Forrest
Achtung: MissForrest priorisiert Datenqualität über Geschwindigkeit!
„Train, Predict, Repeat!“ (aka x*Random Forrest)

„The previous result can be verified here as Miss Forest (1) traces closer
to the original data, followed by the Mice Forest (2) and then KNN (3).“

Model Imputation LLMs & Transformers
„Ich weiß die Antwort!“ (aka LLM based Imputation)
Age Country Income
30 Austria 40.300 E
54 Germany 107.000 E
24 Spain 38.000 E
40 Austria NaN
Die Antwort lautet:
„40, Austria, 68000“
*R Package VIM: Visualization and Imputation of Missing Values - https://cran.r-project.org/web/packages/VIM/VIM.pdf

Age Country Income
30 Austria 40.300 E
24 Spain 38.000 E
40 Austria NaN
Die Antwort lautet:
„40, Austria, 68000“
Step 1: Converter (Data-to-Text)
Step 2: Tokenizer (Text-to-Token)
Step 3: Transformer Model (Train)
Step 4: Transformer Model (Ask)

Age Country Income
30 Austria 40.300 E
24 Spain 38.000 E
40 Austria NaN
Age Country Income
30 Austria 40.300 E
24 Spain 38.000 E
40 Austria 68.000
https://www.igminresearch.com/articles/pdf/igmin140.pdf

Model Imputation Takeaways
Model Imputation sind in der Regel mächtiger als ihre
statistischen Freunde, aber ggf auch deutlich langsamer.
Model Imputation eignen sich bei weniger offensichtlichen
Abhängigkeiten und Ungleichheit.
Model Imputation eignet sich gut für MAR und kann verwendet
werden, um ML in das Modell zu bringen.

K-Nearest Neighbor Imputation Multiple Imputation via IterativImputer
Model Imputation by Example

Anonymisierung
Haben fehlende Daten
auch eine gute Seite?
05

Anonymisierung via Imputation
Zip
DoB
Sex
Ethnicity
Visit Date
Diagnosis
Procedure
Medication
Total Charge
Name
Address
Date Registered
Party Affiliation
Date last Vote
Voter
List
Medical
List
Source: https://privacytools.seas.harvard.edu/sites/projects.iq.harvard.edu/files/privacytools/files/paper1.pdf
uniqueliy identifies
87% of U.S. population
(15 Attributes uniqueliy identifies 99,98%)

„Knapp daneben, ist auch ok!“ (aka vergleichbare Werte)
Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 N/A 38.000 E
40 60306 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 N/A 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 N/A 107.000 E
24 10243 38.000 E
40 60306 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 N/A 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 N/A 107.000 E
24 10243 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80539 107.000 E
24 10243 38.000 E
40 N/A 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 N/A 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 N/A 107.000 E
24 10243 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80539 107.000 E
24 10243 38.000 E
40 N/A 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 10243 38.000 E
40 60310 68.000

Age Zip Code Income
30 26122 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 N/A 40.300 E
54 80336 107.000 E
24 10115 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 N/A 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 N/A 107.000 E
24 10243 38.000 E
40 60306 68.000
Age Zip Code Income
30 26129 40.300 E
54 80539 107.000 E
24 10243 38.000 E
40 N/A 68.000
Age Zip Code Income
30 26129 40.300 E
54 80336 107.000 E
24 10243 38.000 E
40 60310 68.000
Gut genug!

Conclusion
Was ihr aus
dem heutigen Talk
mitnehmen solltet.
99

Imputation Conclusions
• Nix tun hilft selten (eg. XGBoost)
• Löschen nur bei wenig % Missing
• Statistic Imputation bei MCAR
• Model-based Imputation bei MAR
• Domain-Analyse bei MNAR
• Ein Bild sagt mehr als 1000 Worte!
• Sagt ein Wort mehr als Daten?

Vielen
Dank!
#WISSENTEILEN
by open knowledge GmbH
@_openKnowledge | @mobileLarson
Lars Röwekamp, CIO New Technologies

scikit-learn Imputer:
• SimpleImputer: mean, median, most-frequent, constant
• IterativeImputer: round-robin, multiple times
• KNNImputer: k-NN & weighted k-NN
Missingo – Missing Data Visualization:
• https://github.com/ResidentMario/missingno
fancyImpute – Feature Imputation Framework:
• https://pypi.org/project/fancyimpute/
autoImpute – Feature Imputation Framework:
• https://github.com/kearnz/autoimpute
Links & Verweise

A N S P R E C H P A R T N E R
LARS RÖWEKAMP
CIO New Technologies
Kaiserliche Post, Poststraße 1, 26122 Oldenburg
www.openknowledge.de
+49 (0) 441 4082 0
lars.roewekamp@openknowledge.de
www.linkedin.com/in/lars-roewekamp/
Ich lade dich auf einen
remote Kaffee ein ;-)
Hier direkt
Termin sichern!

Folie 01: © anilakkus, iStockphoto.com
All other pictures, drawings and icons originate from
• pexels.com, pixabay.com, unsplash.com,
• flaticon.com
or were made by my own.
BILDNACHWEIS

FEHLENDE DATEN? (K)EIN PROBLEM!: Die Kunst der Data Imputation

Weitere ähnliche Inhalte

Mehr von OPEN KNOWLEDGE GmbH

FEHLENDE DATEN? (K)EIN PROBLEM!: Die Kunst der Data Imputation