SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
Dr. Fabian Prasser
Lehrstuhl für Medizinische Informatik
Institut für Medizinische Statistik und Epidemiologie
Klinikum rechts der Isar der TU München
Datenanonymisierung und
Risikomanagement mit ARX
fabian.prasser@tum.de
+49 89 4140 - 4328
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017 2
Motivation und Hintergrund
Wesentliche Anwendungsfälle
●
Sekundärdatennutzung: Insbesondere Routinedaten für die Forschung
●
Kollaborative Forschung: Data Sharing
Rolle des Datenschutzes
●
Einhaltung rechtlicher Vorgaben
●
Stärkung von Vertrauen, gesellschaftliche Akzeptanz
Dichotomie zwischen anonymen und personenbezogenen Daten
●
Personenbezogene Daten
●
Anonyme Daten
„Gesundheitsdaten“ gelten als besonders schützenswert
Wobei alle Mittel "die [...] wahrscheinlich genutzt werden" unter Bezug auf objektive
Faktoren, wie "Kosten [...] Zeitaufwand, [...] verfügbare Technologie und
technologische Entwicklungen" berücksichtigt werden müssen
[1] Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung
personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Datenschutz-Grundverordnung)
[1]
[1]
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017
Herausforderungen
Grenze zwischen personenbezogenen und anonymen Daten ist fließend
●
Datenschutz ist ein Abwägungsprozess
●
Zentrale Herausforderung: Datenschutzrisiken vs. Nützlichkeit
●
Ziel: starke Reduktion des Risikos bei geringer Auswirkung auf die Nützlichkeit
●
Risikomanagement für Mikrodaten ist ein Baustein in einem Bündel von Maßnahmen
Sinnvolle
Maßnahmen
Risiko
Nützlichkeit
3
Originaldaten
Größtes Risiko
Keine Daten
Kein Risiko
Vergröberung
der Daten
Anonymisierung
Alle Daten in MDAT
Größtes Risiko
Keine Daten in MDAT
Kein Risiko
Verschieben
von Attributen
MDAT → IDAT
Pseudonymisierung
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017
ARX
4
Hintergrund
●
Software zur Analyse und Reduktion des Reidentifikationsrisikos strukturierter,
tabellarischer Daten
●
Methoden zur Messung und Reduktion von Risiken orientieren sich an
Empfehlungen für die medizinische Domäne
●
Für Datenanonymisierungslösungen besitzt die Software eine sehr intuitive
graphische Benutzeroberfläche und einen hohen Grad an Automatisierung
●
Schnittstellen zu gängigen Datenbanksystemen (MS SQL, DB2, SQLite, MySQL)
und Tabellenkalkulationen (MS Excel, CSV)
Literaturempfehlungen (Auszug)
●
George T. Duncan, Mark Elliot, Gonzalez Juan Jose Salazar. Statistical
Confidentiality - Principles and Practice. Springer. 2011.
●
Khaled El Emam. Guide to the De-Identification of Personal Health Information.
CRC Press, 2013.
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017
ARX: Perspektiven
5
Konfiguration
Q
ualitäts-
analyse
Exploration
R
isiko-
analyse
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017
ARX: Konfiguration
6
Beispielsweise
●
Risikogrenzwerte für verschiedene Arten von Angriffen
●
Wichtigkeit einzelner Variablen
●
Hintergrundwissen potentieller Angreifer
●
Informationen zur Gesamtpopulation
●
Transformationsmethoden und -regeln
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
ARX: Datentransformation
15.03.2017 7
Generalisierung
Unterdrückung
Mikroaggregation
Reduktion der Granularität potentiell identifizierender Variablen
Stichprobe
Top-/Bottom Coding
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
ARX: Risikoanalyse
15.03.2017 8
Verschiedene Modelle
●
Besonderer Fokus auf Re-Identifikation
●
Vorher/nachher Vergleiche
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
ARX: Qualitätsanalyse
15.03.2017 9
Mehrere Verfahren
●
Modelle für den Informationsgehalt
●
Deskriptive Statistik
●
Statistische Klassifikation
●
Vorher/nachher Vergleiche
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
ARX: Besonderheiten
15.03.2017 10
Umfangreiche Methodenunterstützung
●
Beispiel: 15 verschiedene Risiko-/Datenschutzmodelle
●
Verfügbar für alle wesentlichen Betriebssysteme (Windows, MacOS, Linux)
●
Graphisches Werkzeug und Programmierbibliothek
Hochskalierbar
●
Verarbeitung mehrerer Millionen Datensätze mit bis zu 50 potentiell identifzierbaren
Variablen auf Consumer Hardware
International erfolgreich
●
>20.000 Downloads seit 2012
●
EMA: External Guidance on the Implementation of the European Medicines Agency
Policy 0070 on the Publication of Clinical Data for Medicinal Products for Human Use
●
EU Agency for Network and Information Security (ENISA): Privacy and Data
Protection by Design
●
NIST Special Publication 800-188 (Draft): De-Identifying Government Datasets
Open Source Software
●
Lizenz: Apache 2
Technische Universität München
F. Prasser: Datenanonymisierung und Risikomanagement mit ARX
15.03.2017 11
Tel +49 89 4140-4328
Fax +49 89 4140-4850
fabian.prasser@tum.de
www.imse.med.tum.de
arx.deidentifier.org
Dr. rer. nat. Fabian Prasser
Klinikum rechts der Isar
Technische Universität München
Institut für Medizinische
Statistik und Epidemiologie
Ismaninger Str. 22
81675 Munich
Germany
Danke für Ihre Aufmerksamkeit!

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (13)

Cmoevitarlacorrosion 140406232511-phpapp02
Cmoevitarlacorrosion 140406232511-phpapp02Cmoevitarlacorrosion 140406232511-phpapp02
Cmoevitarlacorrosion 140406232511-phpapp02
 
La vida cotidiana en tecnología e informática
La vida cotidiana en tecnología e informáticaLa vida cotidiana en tecnología e informática
La vida cotidiana en tecnología e informática
 
Ensayo de informatica
Ensayo de informaticaEnsayo de informatica
Ensayo de informatica
 
La tecnologia y la informatica
La tecnologia y la informaticaLa tecnologia y la informatica
La tecnologia y la informatica
 
Ximena salas verdin 3 c proyecto bloque 4
Ximena salas verdin 3 c proyecto bloque 4Ximena salas verdin 3 c proyecto bloque 4
Ximena salas verdin 3 c proyecto bloque 4
 
上帝和我: 信心 - God and Me: Faith
上帝和我: 信心 - God and Me: Faith上帝和我: 信心 - God and Me: Faith
上帝和我: 信心 - God and Me: Faith
 
Datenanonymisierung und Risikomanagement mit ARX
Datenanonymisierung und Risikomanagement mit ARXDatenanonymisierung und Risikomanagement mit ARX
Datenanonymisierung und Risikomanagement mit ARX
 
Slideshare
Slideshare Slideshare
Slideshare
 
Slideshare garcia deina 10 5
Slideshare garcia deina 10 5Slideshare garcia deina 10 5
Slideshare garcia deina 10 5
 
Lizeth natalia aldana 10 5
Lizeth natalia aldana  10 5Lizeth natalia aldana  10 5
Lizeth natalia aldana 10 5
 
Вредные привычки
Вредные привычкиВредные привычки
Вредные привычки
 
Cap11 l1
Cap11  l1Cap11  l1
Cap11 l1
 
Informativo SIDESC
Informativo SIDESCInformativo SIDESC
Informativo SIDESC
 

Mehr von arx-deidentifier

An Open Source Tool for Game Theoretic Health Data De-Identification
An Open Source Tool for Game Theoretic Health Data De-IdentificationAn Open Source Tool for Game Theoretic Health Data De-Identification
An Open Source Tool for Game Theoretic Health Data De-Identificationarx-deidentifier
 
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...arx-deidentifier
 
An experimental comparison of globally-optimal data de-identification algorithms
An experimental comparison of globally-optimal data de-identification algorithmsAn experimental comparison of globally-optimal data de-identification algorithms
An experimental comparison of globally-optimal data de-identification algorithmsarx-deidentifier
 
ARX - A Generic Method for Assessing the Quality of De-Identified Health Data
ARX - A Generic Method for Assessing the Quality of De-Identified Health DataARX - A Generic Method for Assessing the Quality of De-Identified Health Data
ARX - A Generic Method for Assessing the Quality of De-Identified Health Dataarx-deidentifier
 
Engineering data privacy - The ARX data anonymization tool
Engineering data privacy - The ARX data anonymization toolEngineering data privacy - The ARX data anonymization tool
Engineering data privacy - The ARX data anonymization toolarx-deidentifier
 
An overview of methods for data anonymization
An overview of methods for data anonymizationAn overview of methods for data anonymization
An overview of methods for data anonymizationarx-deidentifier
 
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataarx-deidentifier
 
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataarx-deidentifier
 

Mehr von arx-deidentifier (8)

An Open Source Tool for Game Theoretic Health Data De-Identification
An Open Source Tool for Game Theoretic Health Data De-IdentificationAn Open Source Tool for Game Theoretic Health Data De-Identification
An Open Source Tool for Game Theoretic Health Data De-Identification
 
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...
A Tool for Optimizing De-Identified Health Data for Use in Statistical Classi...
 
An experimental comparison of globally-optimal data de-identification algorithms
An experimental comparison of globally-optimal data de-identification algorithmsAn experimental comparison of globally-optimal data de-identification algorithms
An experimental comparison of globally-optimal data de-identification algorithms
 
ARX - A Generic Method for Assessing the Quality of De-Identified Health Data
ARX - A Generic Method for Assessing the Quality of De-Identified Health DataARX - A Generic Method for Assessing the Quality of De-Identified Health Data
ARX - A Generic Method for Assessing the Quality of De-Identified Health Data
 
Engineering data privacy - The ARX data anonymization tool
Engineering data privacy - The ARX data anonymization toolEngineering data privacy - The ARX data anonymization tool
Engineering data privacy - The ARX data anonymization tool
 
An overview of methods for data anonymization
An overview of methods for data anonymizationAn overview of methods for data anonymization
An overview of methods for data anonymization
 
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
 
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical dataARX - a comprehensive tool for anonymizing / de-identifying biomedical data
ARX - a comprehensive tool for anonymizing / de-identifying biomedical data
 

Anonymisierung und Risikomanagement mit ARX

  • 1. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX Dr. Fabian Prasser Lehrstuhl für Medizinische Informatik Institut für Medizinische Statistik und Epidemiologie Klinikum rechts der Isar der TU München Datenanonymisierung und Risikomanagement mit ARX fabian.prasser@tum.de +49 89 4140 - 4328
  • 2. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 2 Motivation und Hintergrund Wesentliche Anwendungsfälle ● Sekundärdatennutzung: Insbesondere Routinedaten für die Forschung ● Kollaborative Forschung: Data Sharing Rolle des Datenschutzes ● Einhaltung rechtlicher Vorgaben ● Stärkung von Vertrauen, gesellschaftliche Akzeptanz Dichotomie zwischen anonymen und personenbezogenen Daten ● Personenbezogene Daten ● Anonyme Daten „Gesundheitsdaten“ gelten als besonders schützenswert Wobei alle Mittel "die [...] wahrscheinlich genutzt werden" unter Bezug auf objektive Faktoren, wie "Kosten [...] Zeitaufwand, [...] verfügbare Technologie und technologische Entwicklungen" berücksichtigt werden müssen [1] Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Datenschutz-Grundverordnung) [1] [1]
  • 3. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 Herausforderungen Grenze zwischen personenbezogenen und anonymen Daten ist fließend ● Datenschutz ist ein Abwägungsprozess ● Zentrale Herausforderung: Datenschutzrisiken vs. Nützlichkeit ● Ziel: starke Reduktion des Risikos bei geringer Auswirkung auf die Nützlichkeit ● Risikomanagement für Mikrodaten ist ein Baustein in einem Bündel von Maßnahmen Sinnvolle Maßnahmen Risiko Nützlichkeit 3 Originaldaten Größtes Risiko Keine Daten Kein Risiko Vergröberung der Daten Anonymisierung Alle Daten in MDAT Größtes Risiko Keine Daten in MDAT Kein Risiko Verschieben von Attributen MDAT → IDAT Pseudonymisierung
  • 4. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 ARX 4 Hintergrund ● Software zur Analyse und Reduktion des Reidentifikationsrisikos strukturierter, tabellarischer Daten ● Methoden zur Messung und Reduktion von Risiken orientieren sich an Empfehlungen für die medizinische Domäne ● Für Datenanonymisierungslösungen besitzt die Software eine sehr intuitive graphische Benutzeroberfläche und einen hohen Grad an Automatisierung ● Schnittstellen zu gängigen Datenbanksystemen (MS SQL, DB2, SQLite, MySQL) und Tabellenkalkulationen (MS Excel, CSV) Literaturempfehlungen (Auszug) ● George T. Duncan, Mark Elliot, Gonzalez Juan Jose Salazar. Statistical Confidentiality - Principles and Practice. Springer. 2011. ● Khaled El Emam. Guide to the De-Identification of Personal Health Information. CRC Press, 2013.
  • 5. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 ARX: Perspektiven 5 Konfiguration Q ualitäts- analyse Exploration R isiko- analyse
  • 6. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 ARX: Konfiguration 6 Beispielsweise ● Risikogrenzwerte für verschiedene Arten von Angriffen ● Wichtigkeit einzelner Variablen ● Hintergrundwissen potentieller Angreifer ● Informationen zur Gesamtpopulation ● Transformationsmethoden und -regeln
  • 7. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX ARX: Datentransformation 15.03.2017 7 Generalisierung Unterdrückung Mikroaggregation Reduktion der Granularität potentiell identifizierender Variablen Stichprobe Top-/Bottom Coding
  • 8. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX ARX: Risikoanalyse 15.03.2017 8 Verschiedene Modelle ● Besonderer Fokus auf Re-Identifikation ● Vorher/nachher Vergleiche
  • 9. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX ARX: Qualitätsanalyse 15.03.2017 9 Mehrere Verfahren ● Modelle für den Informationsgehalt ● Deskriptive Statistik ● Statistische Klassifikation ● Vorher/nachher Vergleiche
  • 10. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX ARX: Besonderheiten 15.03.2017 10 Umfangreiche Methodenunterstützung ● Beispiel: 15 verschiedene Risiko-/Datenschutzmodelle ● Verfügbar für alle wesentlichen Betriebssysteme (Windows, MacOS, Linux) ● Graphisches Werkzeug und Programmierbibliothek Hochskalierbar ● Verarbeitung mehrerer Millionen Datensätze mit bis zu 50 potentiell identifzierbaren Variablen auf Consumer Hardware International erfolgreich ● >20.000 Downloads seit 2012 ● EMA: External Guidance on the Implementation of the European Medicines Agency Policy 0070 on the Publication of Clinical Data for Medicinal Products for Human Use ● EU Agency for Network and Information Security (ENISA): Privacy and Data Protection by Design ● NIST Special Publication 800-188 (Draft): De-Identifying Government Datasets Open Source Software ● Lizenz: Apache 2
  • 11. Technische Universität München F. Prasser: Datenanonymisierung und Risikomanagement mit ARX 15.03.2017 11 Tel +49 89 4140-4328 Fax +49 89 4140-4850 fabian.prasser@tum.de www.imse.med.tum.de arx.deidentifier.org Dr. rer. nat. Fabian Prasser Klinikum rechts der Isar Technische Universität München Institut für Medizinische Statistik und Epidemiologie Ismaninger Str. 22 81675 Munich Germany Danke für Ihre Aufmerksamkeit!