Angebot und Nachfrage für Open Source Business Intelligence
Open Source Data Mining - Data Mining Cup 2007
1. Open Source Data Mining Tools
– Marktüberblick und Produktevaluation –
Christian Schieder Data-Mining-Cup Anwendertage 2007
Leipzig
20. 06. 2007
1
2. Open Source in aller Munde
Open Source Data Mining Tools
*
* Kleijn, A. : Business Intelligence mit Open Source,
Heise open / Markt, Juni 2006,
http://www.heise.de/open/artikel/73725
Christian Schieder
Open Source Data Mining Tools 2
DMC-Anwendertage, Leipzig 2007
3. Open Source Data Mining im Gartner Hype Cycle
Open Source Data Mining Tools
visibility
Virtual Data
Federation/EII Dashboards/Scorecards
Corporate Performance Management
BAM/Real-Time BI
SOA-Enabled BI
EBISs
Convergence ETL
EBIS/BI Platforms Web Tools
Analytics
Advanced Production/
Analytics OLAP Formatted/
Collaborative BI Data Warehouse BI Platforms Web
Appliance Metadata Tools Reporting
Embedded
Analytics Data Mining Workbenches
Open Source BI ETL Embedded
Visual BI Text Mining in DBMS
Development Open Source DBMS ODBO/MDX and XML for Analysis Standard
Tools Data Quality
Cross-Enterprise Business
64-bit Analytics B2B BI Application
Hardware Extranets Data
Warehouses
Analytical Process Controlling
As of July 2005
Peak of
Technology Trough of Plateau of
Inflated Slope of Enlightenment
Trigger Disillusionment Productivity
Expectations
maturity
Plateau will be reached in:
obsolete
less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau
Quelle: Gartner 2005
Christian Schieder
Open Source Data Mining Tools 3
DMC-Anwendertage, Leipzig 2007
4. Gliederung
Open Source Data Mining Tools
1. Grundlagen
2. Marktüberblick
3. Evaluation
4. Fazit
Christian Schieder
Open Source Data Mining Tools 4
DMC-Anwendertage, Leipzig 2007
5. Gliederung
Open Source Data Mining Tools
1. Grundlagen
2. Marktüberblick
3. Evaluation
4. Fazit
Christian Schieder
Open Source Data Mining Tools 5
DMC-Anwendertage, Leipzig 2007
6. Open Source: Spezifika
1. Grundlagen
Lizenzierungsmodell
Copy-Right vs. Copy-Left
Im Data Mining Bereich häufig Dual Licensing
Entwicklungsmodell
Hybrides Modell: formale und agile Elemente
(Cathedral vs. Bazaar)1
Paradigmen: Kollaboration, Iteration, Modularisierung
“Community“-Phänomen
1 Raymond, E. (1997): The Cathedral and the Bazaar,
http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/
Christian Schieder
Open Source Data Mining Tools 6
DMC-Anwendertage, Leipzig 2007
7. Gliederung
Open Source Data Mining Tools
1. Grundlagen
2. Marktüberblick
3. Evaluation
4. Fazit
Christian Schieder
Open Source Data Mining Tools 7
DMC-Anwendertage, Leipzig 2007
8. Relevante Projekte am Markt
2. Marktüberblick
WEKA [v.3.5.5] Rattle [v.2.2.58]
RapidMiner [v.4.0.0] Orange [v.0.9.7]
KNIME [v.1.2.1]
Daneben: ca. 100+ weitere (teilw. nur rudimentäre) Projekte
R-Project: R is a statistical and data mining package consisting
of a programming language and a graphics system.
Christian Schieder
Open Source Data Mining Tools 8
DMC-Anwendertage, Leipzig 2007
9. Projektsteckbrief WEKA (I)
2. Marktüberblick
WEKA: Waikato Environment for Knowledge Analysis
Aktuelles Release: v.3.5.6
Lizenz: GPL
Entwickler: Universität Waikato, Hamilton, Neuseeland
Projektbeginn: 1996 (1993)
Projektseite:
http://www.cs.waikato.ac.nz/~ml/weka/
http://sourceforge.net/projects/weka/
Besonderheiten:
3-teilige GUI: Explorer, Knowledge Flow, Experimenter
Basis für (fast alle anderen) Open Source Data Mining Tools
Christian Schieder
Open Source Data Mining Tools 9
DMC-Anwendertage, Leipzig 2007
10. Projektsteckbrief WEKA (II): Screens
2. Marktüberblick
Christian Schieder
Open Source Data Mining Tools 10
DMC-Anwendertage, Leipzig 2007
11. Projektsteckbrief WEKA (III): Download Impact
2. Marktüberblick
Download History Weka
Christian Schieder
Open Source Data Mining Tools 11
DMC-Anwendertage, Leipzig 2007
12. Projektsteckbrief RapidMiner (I)
2. Marktüberblick
RapidMiner (Yale)
Aktuelles Release: v.4.0.0 [Yale v.3.5.0]
Lizenz: GPL + Kommerziell
Entwickler:
Universität Dortmund (Lehrstuhl für Künstliche Intelligenz)
Rapid-i GbR (Spin-Off)
Projektbeginn: 2001
Projektseite:
http://rapid-i.com/
http://sourceforge.net/projects/yale/
Besonderheiten:
WEKA-Plug-In
Interaktives Online Demo
Christian Schieder
Open Source Data Mining Tools 12
DMC-Anwendertage, Leipzig 2007
13. Projektsteckbrief RapidMiner (II): Screens
2. Marktüberblick
Christian Schieder
Open Source Data Mining Tools 13
DMC-Anwendertage, Leipzig 2007
14. Projektsteckbrief RapidMiner (III): Download Impact
2. Marktüberblick
Download History RapidMiner
Christian Schieder
Open Source Data Mining Tools 14
DMC-Anwendertage, Leipzig 2007
15. Projektsteckbrief KNIME (I)
2. Marktüberblick
KNIME: KoNstanz Information MinEr [naIm]
Aktuelles Release: v.1.2.1
Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell
Entwickler:
Universität Konstanz (Chair for Bioinformatics and Information Mining)
KNIME GmbH (Spin-Off)
Projektbeginn: 2005
Projektseite: http://www.knime.org
Besonderheiten:
Eclipse Plug-In/RCP
Integration in OS-Reporting-Tools (BIRT, jFreeCharts)
Christian Schieder
Open Source Data Mining Tools 15
DMC-Anwendertage, Leipzig 2007
16. Projektsteckbrief KNIME (II): Screens
2. Marktüberblick
Christian Schieder
Open Source Data Mining Tools 16
DMC-Anwendertage, Leipzig 2007
17. Gliederung
Open Source Data Mining Tools
1. Grundlagen
2. Marktüberblick
3. Evaluation
4. Fazit
Christian Schieder
Open Source Data Mining Tools 17
DMC-Anwendertage, Leipzig 2007
18. CRISP-DM: CRoss-Industry Standard Process for Data Mining
3. Evaluation
Business Data
Understanding Understanding
Schwerpunkte der Untersuchung
Data
Preparation
Deployment Data
Modeling
Evaluation
Quelle: http://www.crisp-dm.org/Process/index.htm
Christian Schieder
Open Source Data Mining Tools 18
DMC-Anwendertage, Leipzig 2007
19. Grundzüge des Untersuchungsdesigns
3. Evaluation
Vorauswahl der Open Source Tools
(Internet-Recherchen)…
SPSS Clementine als kommerzielles
Referenzprodukt…
Clementine als
challengers leaders Referenzprodukt
für die
Untersuchung
SAS
SPSS
[Microsoft] (IBM)
ability to execute
(Oracle)
FairIsaac
(Prudsys)
KXEN (Bissantz)
Unica
Chordiant
Portrait
Teradata
ThinkAnalytics
niche players visionaries
completeness of vision Quellen: Gartner 2006
(Barc 2001)
Christian Schieder
Open Source Data Mining Tools 19
DMC-Anwendertage, Leipzig 2007
20. Grundzüge des Untersuchungsdesigns
3. Evaluation
Vorauswahl der Open Source Tools
(Internet-Recherchen)…
SPSS Clementine als kommerzielles
Referenzprodukt…
Anwendung der OS-Tools auf die Beispiele
und Daten von Clementine…
Evaluierung von insgesamt 25 Einzelkriterien
in 8 Kategorien verglichen mit Clementine
Auswertung, Zusammenfassung und
Vergleich der Testprotokolle…
Christian Schieder
Open Source Data Mining Tools 20
DMC-Anwendertage, Leipzig 2007
21. Untersuchungskategorien
3. Evaluation
Dokumentation
10
8
Auswertungen Ergonomie
6
4
2
0
Methoden Projektmanagement
Data Preparation Data Understanding
WEKA
Christian Schieder
Open Source Data Mining Tools 21
DMC-Anwendertage, Leipzig 2007
22. Ergebnisse der Untersuchung: WEKA
3. Evaluation
Dokumentation
10
8
Auswertungen Ergonomie
6
4
2
0
Methoden Projektmanagement
Data Preparation Data Understanding
WEKA [WEKA Version 3.5.5]
Christian Schieder
Open Source Data Mining Tools 22
DMC-Anwendertage, Leipzig 2007
23. Ergebnisse der Untersuchung: RapidMiner
3. Evaluation
Dokumentation
10
8
Auswertungen Ergonomie
6
4
2
0
Methoden Projektmanagement
Anm.:
Die Bewertung bezieht sich auf
YALE Version 3.4.0. Das im Mai Data Preparation Data Understanding
2007 erschienene Major-Relase
mit der Umbennenung in
RapidMiner bietet insbesondere in
den schwachen Bereichen (Data
Preparation, Ergonomie) RapidMiner [YALE Version 3.4.0]
erhebliche Verbesserungen.
Christian Schieder
Open Source Data Mining Tools 23
DMC-Anwendertage, Leipzig 2007
24. Ergebnisse der Untersuchung: KNIME
3. Evaluation
Dokumentation
10
8
Auswertungen Ergonomie
6
4
2
0
Methoden Projektmanagement
Data Preparation Data Understanding
KNIME [KNIME Version 1.2.0]
Christian Schieder
Open Source Data Mining Tools 24
DMC-Anwendertage, Leipzig 2007
25. Zusammenschau der Ergebnisse (I)
3. Evaluation
Dokumentation
10
8
Auswertungen Ergonomie
6
4
2
0
Methoden Projektmanagement
Data Preparation Data Understanding
WEKA RapidMiner KNIME
Christian Schieder
Open Source Data Mining Tools 25
DMC-Anwendertage, Leipzig 2007
26. Gliederung
Open Source Data Mining Tools
1. Grundlagen
2. Marktüberblick
3. Evaluation
4. Fazit
Christian Schieder
Open Source Data Mining Tools 26
DMC-Anwendertage, Leipzig 2007
27. Zusammenschau der Ergebnisse
4. Fazit
Relativ hoher Reifegrad aller 3 untersuchten Produkte
Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai
2007) leicht vorn
Aber: spezifische Stärken und Schwächen in jeden Tool
Keines der Tools erreicht das Referenzprodukt in allen
Kategorien
Aber:
In einzelnen Eigenschaften durchaus gleichwertig
Insbesondere bei Offenheit, Anpassbarkeit und
Interoperabilität deutliche Vorteile (Plug-Ins, XML)
Christian Schieder
Open Source Data Mining Tools 27
DMC-Anwendertage, Leipzig 2007
29. Zusammenfassung
4. Fazit
Fazit: OS-Data-Mining-Tools erreichen heute (noch)
nicht (in allen Belangen) die Leistungsfähigkeit
kommerzieller Produkte
Aber: OS-Tools entwickeln sich sehr dynamisch
Frage: Reichen mir 90% der Funktionalität von Clementine?
Tipp: Anforderungen genau definieren und OS-Tools im
Einzelfall untersuchen
Folgen:
wachsender Reifegrad von Open Source Tools
steigende Relevanz von OS Tools
zunehmender Preisdruck für Anbieter
Stärkung der Kundenposition
Christian Schieder
Open Source Data Mining Tools 29
DMC-Anwendertage, Leipzig 2007