Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Haltet den (Daten-) Dieb! Echtzeiterkennung von Anomalien in Computernetzwerken mit maschinellen Lernverfahren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 23 Anzeige

Haltet den (Daten-) Dieb! Echtzeiterkennung von Anomalien in Computernetzwerken mit maschinellen Lernverfahren

Herunterladen, um offline zu lesen

Die zeitnahe Erkennung von Netzwerkattacken oder nicht autorisierten Datenabflüssen ist für Betreiber von Rechenzentren wichtig, da so ungewollte Handlungen innerhalb des Netzwerkes bereits vor Entstehung größerer Schäden erkannt werden können. Vor allem neue Angriffsmuster, die durch die üblichen regel- bzw. signaturbasierten Systeme nicht erkannt werden können, stellen eine ständige Gefahr dar. Zu diesem Zweck können intelligente Systeme mithilfe von Methoden des maschinellen Lernens zum Einsatz kommen.
Durch die Erscheinung zahlreicher und vielfältiger Big Data-Werkzeuge wie beispielsweise Apache Spark oder Apache Flink eröffnen sich in der heutigen Zeit vollkommen neue Möglichkeiten bezüglich Skalierbarkeit und Echtzeitfähigkeit von Machine Learning-Modellen und -Anwendungen. Am Beispiel des Clusteringverfahrens k-means wird die Entwicklung eines entsprechenden Prototyps sowohl aus Data Science- als auch aus Implementierungssicht auf Basis von Apache Spark Streaming und der Spark MLlib gezeigt.
Der Vortrag stellt die Ergebnisse einer aktuellen Forschungsarbeit dar, die als Masterthesis der Hochschule Karlsruhe in Kooperation mit der inovex GmbH in Karlsruhe durchgeführt wird.

Event: Business Analytics Day, 08.03.2017, Offenburg
Speaker: Julian Keppel, inovex GmbH
Noch mehr Tech-Vorträge: https://www.inovex.de/de/content-pool/vortraege/

Die zeitnahe Erkennung von Netzwerkattacken oder nicht autorisierten Datenabflüssen ist für Betreiber von Rechenzentren wichtig, da so ungewollte Handlungen innerhalb des Netzwerkes bereits vor Entstehung größerer Schäden erkannt werden können. Vor allem neue Angriffsmuster, die durch die üblichen regel- bzw. signaturbasierten Systeme nicht erkannt werden können, stellen eine ständige Gefahr dar. Zu diesem Zweck können intelligente Systeme mithilfe von Methoden des maschinellen Lernens zum Einsatz kommen.
Durch die Erscheinung zahlreicher und vielfältiger Big Data-Werkzeuge wie beispielsweise Apache Spark oder Apache Flink eröffnen sich in der heutigen Zeit vollkommen neue Möglichkeiten bezüglich Skalierbarkeit und Echtzeitfähigkeit von Machine Learning-Modellen und -Anwendungen. Am Beispiel des Clusteringverfahrens k-means wird die Entwicklung eines entsprechenden Prototyps sowohl aus Data Science- als auch aus Implementierungssicht auf Basis von Apache Spark Streaming und der Spark MLlib gezeigt.
Der Vortrag stellt die Ergebnisse einer aktuellen Forschungsarbeit dar, die als Masterthesis der Hochschule Karlsruhe in Kooperation mit der inovex GmbH in Karlsruhe durchgeführt wird.

Event: Business Analytics Day, 08.03.2017, Offenburg
Speaker: Julian Keppel, inovex GmbH
Noch mehr Tech-Vorträge: https://www.inovex.de/de/content-pool/vortraege/

Anzeige
Anzeige

Weitere Verwandte Inhalte

Andere mochten auch (19)

Ähnlich wie Haltet den (Daten-) Dieb! Echtzeiterkennung von Anomalien in Computernetzwerken mit maschinellen Lernverfahren (12)

Anzeige

Weitere von inovex GmbH (20)

Aktuellste (20)

Anzeige

Haltet den (Daten-) Dieb! Echtzeiterkennung von Anomalien in Computernetzwerken mit maschinellen Lernverfahren

  1. 1. Haltet den (Daten-) Dieb! Echtzeiterkennung von Anomalien in Computernetzwerken mit maschinellen Lernverfahren Julian Keppel Offenburg, 08.03.2017
  2. 2. Student an der Hochschule Karlsruhe Themen: Spark, Stream Processing, Machine Learning Betreuer: Prof. Dr. Christian Zirpins 2 Julian Keppel
  3. 3. › Erkennung ungewöhnlicher Netzwerkaktivitäten › Signaturbasierte Systeme wie SNORT › Neue Angriffsmuster, für die noch keine Signaturen vorliegen? à Machine Learning 3 Einführung Anwendungsfall Intrusion Detection
  4. 4. { "port_src": 46812, "ip_src": "0.0.16.120", "ip_dst": "0.0.112.252", "tcp_flags": "30", "port_dst": 80, "ip_proto": "tcp", "timestamp_end": "2016-12-07 09:22:17.0", "tos": 0, "timestamp_start": "2016-12-07 09:22:17.0", "packets": 7, "bytes": 869 } 4 Einführung
  5. 5. › In der Praxis fehlen häufig Labels › Unsupervised Algorithmen wie Clustering schaffen Abhilfe › Einfach und weit verbreitet: k-means 5 Einführung
  6. 6. 6 Konzept Feature-Extraktion: Categorials …,tcp,… …,udp,… …,udp,… …,icmp,… …,udp,… …,tcp,… String- Indexing …,1.0,… …,0.0,… …,0.0,… …,2.0,… …,0.0,… …,1.0,… …,0.0,1.0,0.0,… …,1.0,0.0,0.0,… …,1.0,0.0,0.0,… …,0.0,0.0,1.0,… …,1.0,0.0,0.0,… …,0.0,1.0,0.0,… One-Hot- Encoding
  7. 7. 7 Konzept Feature-Extraktion: Verschiedene Skalierungen …,421,4,… …,2021,8,… …,768,16,… …,3122,10,… …,139,2,… …,2845,10,… Standard- Scaling …,0.328,0.805,… …,1.574,1.611,… …,0.598,3.222,… …,2.431,2.013,… …,0.108,0.403,… …,2.215,2.013,…
  8. 8. 8 Konzept Ansätze für Anomaly Detection
  9. 9. 9 Prototyp Architektur Storage Alarme Trace Trace Trainingsdaten Modell Modell
  10. 10. › Spark bietet breite Auswahl an Bibliotheken › Einheitliche API für Batch- und Stream-Processing › Dataframe/Dataset-API (SQL) › Machine Learning-Workflows › Alles nötige aus einer Hand › Model Selection › Feature-Engineering und Vorverarbeitung › Echtzeiterkennung 10 Prototyp Spark, Streaming & MLlib
  11. 11. 11 Prototyp Spark Pipeline-Konzept String- Indexing One-Hot- Encoding Standard- Scaling k-means Clustering Modell
  12. 12. 12 Prototyp Echtzeiterkennung mit Spark Streaming Modell { "port_src": 0, "ip_src": "0.0.16.120", "ip_dst": "0.0.112.252", "tcp_flags": "0", "port_dst": 0, "ip_proto": "ipv6-crypt", "tos": 0, "packets": 130599, "bytes": 103103700 } cluster: 16, distance: 13.72 distance > 12.0 ? Alarm!
  13. 13. { "port_src": 0, "port_dst": 0, "ip_src": "0.0.159.234", "ip_dst": "0.0.23.180", "ip_proto": "ipv6-crypt", "tos": 0, "packets": 130599, "bytes": 103103700, "timestamp_start": "2017-01-03 16:15:11.0", "timestamp_end": "2017-01-03 16:15:21.0", "tcp_flags": 0 } 13 Evaluation Beispiele für Anomalien Punkt- anomalie
  14. 14. 14 Evaluation Beispiele für Anomalien { "port_src": 53, "port_dst": 37095, "ip_src": "0.0.83.30", "ip_dst": "0.0.159.234", "ip_proto": "udp", "tos": 0, "packets": 1, "bytes": 698, "timestamp_start": "2017-01-08 05:16:19.0", "timestamp_end": "2017-01-08 05:16:19.0", "tcp_flags": 0 } Kollektive Anomalie
  15. 15. › Klassischerweise werden Modelle einmalig trainiert (Offline) › Bei Bedarf periodisch neues Training des Modells › Manchmal kontinuierliche Anpassung des Modells an die Gegebenheiten wünschenswert (Online) › Online-Implementierung für k-means in Spark 15 Online-Learning?
  16. 16. › Clusterzentren werden für jeden Micro-Batch aktualisiert › „Vergesslichkeit“ des Modells konfigurierbar › Vorteil: Adaption von sich ändernden Gegebenheiten › Nachteil: Auch Adaption etwaiger Anomalien? 16 Online k-means in Spark
  17. 17. 17 Online- vs. Offline-Learning Versuchsaufbau Training Test Online- Modell Update 1 Update 2 Update n… Vorhersagen
  18. 18. Receiver Operating Characteristic Schwellwert- & Gütebestimmung 18
  19. 19. 19 Online- vs. Offline-Learning Evaluation mit synthetischen Daten 0,991 0,4 0,5 0,6 0,7 0,8 0,9 1 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 AUC Zeitpunkt Grenze Online-Modell Offline-Modell
  20. 20. › Sinkende Performance: Es zeigt sich deutlich die Adaption des Modells › Ohne weitere Logik zu wenig Kontrolle über das Verhalten des Modells › Für Intrusion Detection: Empfehlung tendenziell zu Offline-Modell 20 Online- vs. Offline-Learning
  21. 21. › Evaluation mit Fachabteilung: Bei geeigneter Feature- Auswahl korrekte Mustererkennung › Skalierbare Echtzeiterkennung durch Apache Spark › Als sinnvolle Ergänzung zu regelbasiertem System › Online-Learning nur bei gezielten Updates (Adaption von Angriffen vermeiden) 21 Abschluss
  22. 22. › Andere Clusteringverfahren und Distanzmetriken? › Gelabelte Trainingsdaten eröffnen neue Möglichkeiten (supervised Learning) › Updatezeiten Offline- vs. Online-Modell? 22 Ausblick
  23. 23. Vielen Dank Julian Keppel inovex GmbH Ludwig-Erhard-Allee 6 76131 Karlsruhe julian.keppel@inovex.de

×