Nachvollziehbare, datengetriebene, automatisierte Analysen der Softwareentwicklung [DeveloperCamp2017]

Nachvollziehbare, datengetriebene,
automatisierte Analysen der
Softwareentwicklung
Markus Harrer
@feststelltaste feststelltaste.de talk@markusharrer.de
software analytics softwaresanierung clean code

“Without data you're
just another person
with an opinion.“
W. Edwards Deming

Priorisierungsproblem
“Not all parts of a
system will be
well designed.“
Eric Evans

Fragen aus der Praxis
• Weshalb schlagen unsere CI-Builds fehl?
• Woher kommen die vielen DB-Calls?
• Welcher Entwickler kennt sich im Code aus?
• Wo gibt es sich gegenseitig überschreibende
statische Variablen?
• Wo verletzen wir Compliance-Vorgaben?
• Welche „JSF-Getter“ greifen auf das Backend
durch?
• ...
•Oft auch: Wo fange ich an?

Anspruch
Lösungsoptionen
automatisiert,
datengetrieben und
nachvollziehbar
erarbeiten.

Motivation
Warum?
•Probleme sichtbar machen
+ Klarheit und Verständnis schaffen
•Entscheidungen treiben
+ Budgets sichern
+ Neue Budgets für weitere Analysen sichern
•Kontinuierliches Lernen unterstützen
+ Herausforderungen meistern
+ Selbst stetig besser werden

Software-
daten-
analyse
Metriken
Dash-
boards
Sweet Spot der Analysen
Handlungs-
orientierung
Nachvollziehbarkeit
Rohdaten

Checkliste Automatisierung
Auswertungen als Skripte mit
• Datenbeschaffung
• Analysen
• Visualisierung
DevOps style

Arten von Softwareartefakten und Metadaten
chronologischCommunity
Laufzeitstatisch

Checkliste Daten
Pro Variable eine Spalte (mit richtigem
Datentyp)
Für jede Beobachtung eine Reihe
Eine Tabelle für jede zusammengehörige
Gruppe von Variablen
Für jede Tabelle einer Analyse eine
verlinkende Spalte

Daten sind dreckig
Verwendete Zeit für Datenbereinigung:
bis zu 80%

Checkliste Nachvollziehbarkeit
• Idee / Kontext / Rahmen der Analyse
dokumentiert
• Annahmen und Vereinfachungen
kommuniziert
• Vorverarbeitung (insb. Löschungen)
dokumentiert
• Rechenweg offengelegt
• Zusammenfassungen begründet

Nachvollziehbarkeit + Automatisierung + Daten
Replizierbarkeit

Analyse-Pipeline
Programmiersprache u. a. für
Scientific Computing
Einfach
Effektiv
Schnell
Automatisierungsmeister

Analyse-Pipeline
Pragmatisches Datenanalyse-Framework
Effektive, tabellarische Datenstruktuen
• Schnell
• Flexibel
• Ausdruckstark
Sehr gute Integration

Die Spezialisten (insb. graphartige Daten)
Analyse-Pipeline
Framework zur statischen
Architektur- und Code-
Analyse
Graph-Datenbank
[:SPEICHERT_IN]

Analyse-Pipeline
ZIP
GZ
*.class
JAR, WAR, EAR
MANIFEST.MF
*.properties
XSD
YAML
XML
application.xml
web.xml
beans.xml
JaCoCo
FindBugs
CheckStyle
pom.xml
surefire-reports.xml RDBMS Schema
M2 Repository
DBCSV
Excel
BigQuery
Inputs
HDFStore
Web
JSON
Git
Pandas
jQAssistant

Analyse-Pipeline
Interaktives Notebook
• Analysen dokumentieren und ausführen
Ergebnisse nachvollziehbar
• Alles an einem einzigen Platz
• Lösungsweg sichtbar
• Auswertung wiederholbar

Bei Bedarf
• Data Mining
• NumPy
• scikit-learn
• SciPy
• Visualisierung / Präsentation
• matplotlib
• plot.ly
• Bokeh
• python-pptx
• ...
Analyse-Pipeline

Analyse-Pipeline
Seit grad‘:
Docker

Analyse-Pipeline
XML/Graph
Tabellen
matplotlib
Pandas,
...
Pandas
jQAssistant,
Neo4j
Text
xlsx
E
pptx
P
Python Jupyter
Eingabe
Vorver-
arbeitung
Analyse
Ausgabe
D3

Erfahrungswerte
• Frameworks voll ausspielen
• Schnelle Installation
• Verschiedene Datenquellen kombinieren
• Zusammenfassende Analysen vornehmen
• Keine Angst vor großen Datenmengen
• Analyseumgebung standardisieren
• Gegenseitig unterstützen
Learning by Doing!

Was ist der
Wert der Information
in Relation zum
Aufwand für die Gewinnung
der Information?
Zu guter Letzt

Literatur
Leek, Jeff: The Elements of Data Analytic Style.
LeanPub, 2015.
McKinney, Wes: Python For Data Analysis, O’Reilly,
2012.
Mens, Tom; Serebrenik; Cleve, Anthony:Evolving
Software Systems. Springer, 2014.
Mens, Tom; Demeyer, Serge: Software Evolution.
Springer, 2008.
Shull, Forrest; Singer, Janice; Sjøberg, Dag I.K.: Guide
to Advanced Empirical Software Engineering. Springer,
2008.
Tornhill, Adam:Your Code As a Crime Scene.
Pragmatic Programmers, 2015.

Fragerunde
Fragen, Details, Demos,
Pair Programming?
Bin heute und morgen hier ;-) !

Nachvollziehbare, datengetriebene, automatisierte Analysen der Softwareentwicklung [DeveloperCamp2017]

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Nachvollziehbare, datengetriebene, automatisierte Analysen der Softwareentwicklung [DeveloperCamp2017]

Ähnlich wie Nachvollziehbare, datengetriebene, automatisierte Analysen der Softwareentwicklung [DeveloperCamp2017] (20)

Mehr von Markus Harrer

Mehr von Markus Harrer (12)

Nachvollziehbare, datengetriebene, automatisierte Analysen der Softwareentwicklung [DeveloperCamp2017]

Hinweis der Redaktion