Open Source Data Mining Tools
 – Marktüberblick und Produktevaluation –



          Christian Schieder   Data-Mining-Cup Anwendertage 2007
                               Leipzig
                               20. 06. 2007




                                                                   1
Open Source in aller Munde
Open Source Data Mining Tools




                                 *




                                     * Kleijn, A. : Business Intelligence mit Open Source,
                                       Heise open / Markt, Juni 2006,
                                       http://www.heise.de/open/artikel/73725

Christian Schieder
Open Source Data Mining Tools                                                        2
DMC-Anwendertage, Leipzig 2007
Open Source Data Mining im Gartner Hype Cycle
Open Source Data Mining Tools




                           visibility


                                               Virtual Data
                                             Federation/EII              Dashboards/Scorecards
                                                                         Corporate Performance Management
                                     BAM/Real-Time BI


                                     SOA-Enabled BI
                                                                                                                                               EBISs
                                     Convergence                                                                                       ETL
                                 EBIS/BI Platforms                                                                           Web       Tools
                                                                                                                           Analytics
                                      Advanced                                                                                                      Production/
                                       Analytics                                                                                            OLAP    Formatted/
                            Collaborative BI            Data Warehouse                                                       BI Platforms           Web
                                                        Appliance                  Metadata Tools                                                   Reporting
                                  Embedded
                                   Analytics                                                                    Data Mining Workbenches
                                                     Open Source BI                ETL Embedded
                               Visual BI              Text Mining                       in DBMS
                            Development             Open Source DBMS                                         ODBO/MDX and XML for Analysis Standard
                                   Tools                                                                     Data Quality
                                                   Cross-Enterprise                          Business
                                    64-bit         Analytics                    B2B BI      Application
                                 Hardware                                      Extranets       Data
                                                                                            Warehouses
                                        Analytical Process Controlling
                                                                                                                                               As of July 2005
                                                           Peak of
                                     Technology                                 Trough of                                                    Plateau of
                                                           Inflated                                       Slope of Enlightenment
                                       Trigger                               Disillusionment                                                Productivity
                                                         Expectations
                                                                                           maturity
                                 Plateau will be reached in:
                                                                                                                                          obsolete
                                   less than 2 years            2 to 5 years          5 to 10 years         more than 10 years            before plateau


                                                                                                                                                                  Quelle: Gartner 2005

Christian Schieder
Open Source Data Mining Tools                                                                                                                                                       3
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1. Grundlagen
                           2. Marktüberblick
                           3. Evaluation
                           4. Fazit




Christian Schieder
Open Source Data Mining Tools                  4
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1. Grundlagen
                           2.    Marktüberblick

                           3.    Evaluation

                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                     5
DMC-Anwendertage, Leipzig 2007
Open Source: Spezifika
1. Grundlagen




                                 Lizenzierungsmodell

                                      Copy-Right vs. Copy-Left

                                     Im Data Mining Bereich häufig Dual Licensing


                                 Entwicklungsmodell

                                     Hybrides Modell: formale und agile Elemente
                                     (Cathedral vs. Bazaar)1

                                     Paradigmen: Kollaboration, Iteration, Modularisierung

                                     “Community“-Phänomen




                                                            1 Raymond, E. (1997): The Cathedral and the Bazaar,
                                                              http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/
Christian Schieder
Open Source Data Mining Tools                                                                                                        6
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2. Marktüberblick
                           3.    Evaluation

                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                  7
DMC-Anwendertage, Leipzig 2007
Relevante Projekte am Markt
2. Marktüberblick




                                      WEKA     [v.3.5.5]           Rattle    [v.2.2.58]


                                      RapidMiner [v.4.0.0]         Orange [v.0.9.7]


                                      KNIME [v.1.2.1]




                    Daneben:     ca. 100+ weitere (teilw. nur rudimentäre) Projekte
                    R-Project:   R is a statistical and data mining package consisting
                                 of a programming language and a graphics system.




Christian Schieder
Open Source Data Mining Tools                                                             8
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (I)
2. Marktüberblick



           WEKA: Waikato Environment for Knowledge Analysis

                             Aktuelles Release: v.3.5.6
                             Lizenz: GPL
                             Entwickler: Universität Waikato, Hamilton, Neuseeland
                             Projektbeginn: 1996 (1993)


                             Projektseite:
                                   http://www.cs.waikato.ac.nz/~ml/weka/
                                   http://sourceforge.net/projects/weka/


                             Besonderheiten:
                                   3-teilige GUI: Explorer, Knowledge Flow, Experimenter
                                   Basis für (fast alle anderen) Open Source Data Mining Tools




Christian Schieder
Open Source Data Mining Tools                                                                    9
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools          10
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (III): Download Impact
2. Marktüberblick




                                 Download History Weka




Christian Schieder
Open Source Data Mining Tools                            11
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (I)
2. Marktüberblick


              RapidMiner (Yale)

                             Aktuelles Release: v.4.0.0 [Yale v.3.5.0]
                             Lizenz: GPL + Kommerziell
                             Entwickler:
                                   Universität Dortmund (Lehrstuhl für Künstliche Intelligenz)
                                   Rapid-i GbR (Spin-Off)
                             Projektbeginn: 2001

                             Projektseite:
                                   http://rapid-i.com/
                                   http://sourceforge.net/projects/yale/


                             Besonderheiten:
                                   WEKA-Plug-In
                                   Interaktives Online Demo


Christian Schieder
Open Source Data Mining Tools                                                                    12
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools                13
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (III): Download Impact
2. Marktüberblick




                                 Download History RapidMiner




Christian Schieder
Open Source Data Mining Tools                                  14
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief KNIME (I)
2. Marktüberblick


           KNIME: KoNstanz Information MinEr [naIm]

                             Aktuelles Release: v.1.2.1
                             Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell

                             Entwickler:
                                   Universität Konstanz (Chair for Bioinformatics and Information Mining)
                                   KNIME GmbH (Spin-Off)
                             Projektbeginn: 2005


                             Projektseite: http://www.knime.org


                             Besonderheiten:
                                   Eclipse Plug-In/RCP
                                   Integration in OS-Reporting-Tools (BIRT, jFreeCharts)



Christian Schieder
Open Source Data Mining Tools                                                                               15
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief KNIME (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools           16
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2.    Marktüberblick

                           3. Evaluation
                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                     17
DMC-Anwendertage, Leipzig 2007
CRISP-DM: CRoss-Industry Standard Process for Data Mining
3. Evaluation




                                           Business                      Data
                                         Understanding                Understanding
                                                                                                      Schwerpunkte der Untersuchung




                                                                                  Data
                                                                               Preparation

                                 Deployment                Data


                                                                                Modeling




                                                         Evaluation




                                                                                             Quelle: http://www.crisp-dm.org/Process/index.htm

Christian Schieder
Open Source Data Mining Tools                                                                                                                18
DMC-Anwendertage, Leipzig 2007
Grundzüge des Untersuchungsdesigns
3. Evaluation




                                 Vorauswahl der Open Source Tools
                                 (Internet-Recherchen)…
                                      SPSS Clementine als kommerzielles
                                        Referenzprodukt…
                                                                                                                    Clementine als
                                                                     challengers             leaders                Referenzprodukt
                                                                                                                    für die
                                                                                                                    Untersuchung
                                                                                                     SAS
                                                                                                             SPSS
                                                                            [Microsoft]             (IBM)
                                                ability to execute




                                                                                          (Oracle)
                                                                           FairIsaac
                                                                                         (Prudsys)
                                                                                     KXEN       (Bissantz)
                                                                         Unica
                                                                                       Chordiant
                                                                                              Portrait
                                                                      Teradata
                                                                                     ThinkAnalytics


                                                                     niche players           visionaries
                                                                                   completeness of vision                       Quellen: Gartner 2006
                                                                                                                                          (Barc 2001)

Christian Schieder
Open Source Data Mining Tools                                                                                                                     19
DMC-Anwendertage, Leipzig 2007
Grundzüge des Untersuchungsdesigns
3. Evaluation




                             Vorauswahl der Open Source Tools
                             (Internet-Recherchen)…
                                  SPSS Clementine als kommerzielles
                                    Referenzprodukt…

                                      Anwendung der OS-Tools auf die Beispiele
                                      und Daten von Clementine…

                                           Evaluierung von insgesamt 25 Einzelkriterien
                                           in 8 Kategorien verglichen mit Clementine

                                                Auswertung, Zusammenfassung und
                                                Vergleich der Testprotokolle…




Christian Schieder
Open Source Data Mining Tools                                                             20
DMC-Anwendertage, Leipzig 2007
Untersuchungskategorien
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            WEKA

Christian Schieder
Open Source Data Mining Tools                                                                          21
DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: WEKA
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            WEKA                              [WEKA Version 3.5.5]

Christian Schieder
Open Source Data Mining Tools                                                                                  22
DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: RapidMiner
  3. Evaluation




                                                  Dokumentation
                                                     10

                                                      8
                                   Auswertungen                          Ergonomie
                                                      6

                                                      4

                                                      2

                                                      0

                                   Methoden                                  Projektmanagement



Anm.:
Die Bewertung bezieht sich auf
YALE Version 3.4.0. Das im Mai Data Preparation                   Data Understanding
2007 erschienene Major-Relase
mit der Umbennenung in
RapidMiner bietet insbesondere in
den schwachen Bereichen (Data
Preparation, Ergonomie)                             RapidMiner                          [YALE Version 3.4.0]
erhebliche Verbesserungen.
  Christian Schieder
  Open Source Data Mining Tools                                                                           23
  DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: KNIME
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            KNIME                            [KNIME Version 1.2.0]

Christian Schieder
Open Source Data Mining Tools                                                                                  24
DMC-Anwendertage, Leipzig 2007
Zusammenschau der Ergebnisse (I)
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                WEKA       RapidMiner      KNIME

Christian Schieder
Open Source Data Mining Tools                                                                          25
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2.    Marktüberblick

                           3.    Evaluation

                           4. Fazit




Christian Schieder
Open Source Data Mining Tools                     26
DMC-Anwendertage, Leipzig 2007
Zusammenschau der Ergebnisse
4. Fazit




                             Relativ hoher Reifegrad aller 3 untersuchten Produkte
                             Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai
                             2007) leicht vorn
                             Aber: spezifische Stärken und Schwächen in jeden Tool
                             Keines der Tools erreicht das Referenzprodukt in allen
                             Kategorien


                             Aber:
                                 In einzelnen Eigenschaften durchaus gleichwertig
                                 Insbesondere bei Offenheit, Anpassbarkeit und
                                 Interoperabilität deutliche Vorteile (Plug-Ins, XML)



Christian Schieder
Open Source Data Mining Tools                                                            27
DMC-Anwendertage, Leipzig 2007
Magic Quadrant for Open Source Data Mining Tools
4. Fazit




                                                   challengers                 leaders




                                                                                  Rapid
                                                                                  Miner
                                 Fitness for Use



                                                                                             KNIME
                                                                               Weka




                                                                   Rattle

                                                                      Orange

                                                                                               RKWard


                                                   niche players               visionaries

                                                                       Future Relevance




                                                                                                          As of Q2/07
                                                                                                        © TU Chemnitz

Christian Schieder
Open Source Data Mining Tools                                                                                     28
DMC-Anwendertage, Leipzig 2007
Zusammenfassung
4. Fazit



                                 Fazit:    OS-Data-Mining-Tools erreichen heute (noch)
                                           nicht (in allen Belangen) die Leistungsfähigkeit
                                           kommerzieller Produkte
                                 Aber:     OS-Tools entwickeln sich sehr dynamisch

                                 Frage: Reichen mir 90% der Funktionalität von Clementine?

                                 Tipp:     Anforderungen genau definieren und OS-Tools im
                                           Einzelfall untersuchen
                                 Folgen:
                                           wachsender Reifegrad von Open Source Tools

                                           steigende Relevanz von OS Tools

                                           zunehmender Preisdruck für Anbieter

                                           Stärkung der Kundenposition

Christian Schieder
Open Source Data Mining Tools                                                                 29
DMC-Anwendertage, Leipzig 2007

Open Source Data Mining - Data Mining Cup 2007

  • 1.
    Open Source DataMining Tools – Marktüberblick und Produktevaluation – Christian Schieder Data-Mining-Cup Anwendertage 2007 Leipzig 20. 06. 2007 1
  • 2.
    Open Source inaller Munde Open Source Data Mining Tools * * Kleijn, A. : Business Intelligence mit Open Source, Heise open / Markt, Juni 2006, http://www.heise.de/open/artikel/73725 Christian Schieder Open Source Data Mining Tools 2 DMC-Anwendertage, Leipzig 2007
  • 3.
    Open Source DataMining im Gartner Hype Cycle Open Source Data Mining Tools visibility Virtual Data Federation/EII Dashboards/Scorecards Corporate Performance Management BAM/Real-Time BI SOA-Enabled BI EBISs Convergence ETL EBIS/BI Platforms Web Tools Analytics Advanced Production/ Analytics OLAP Formatted/ Collaborative BI Data Warehouse BI Platforms Web Appliance Metadata Tools Reporting Embedded Analytics Data Mining Workbenches Open Source BI ETL Embedded Visual BI Text Mining in DBMS Development Open Source DBMS ODBO/MDX and XML for Analysis Standard Tools Data Quality Cross-Enterprise Business 64-bit Analytics B2B BI Application Hardware Extranets Data Warehouses Analytical Process Controlling As of July 2005 Peak of Technology Trough of Plateau of Inflated Slope of Enlightenment Trigger Disillusionment Productivity Expectations maturity Plateau will be reached in: obsolete less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau Quelle: Gartner 2005 Christian Schieder Open Source Data Mining Tools 3 DMC-Anwendertage, Leipzig 2007
  • 4.
    Gliederung Open Source DataMining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 4 DMC-Anwendertage, Leipzig 2007
  • 5.
    Gliederung Open Source DataMining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 5 DMC-Anwendertage, Leipzig 2007
  • 6.
    Open Source: Spezifika 1.Grundlagen Lizenzierungsmodell Copy-Right vs. Copy-Left Im Data Mining Bereich häufig Dual Licensing Entwicklungsmodell Hybrides Modell: formale und agile Elemente (Cathedral vs. Bazaar)1 Paradigmen: Kollaboration, Iteration, Modularisierung “Community“-Phänomen 1 Raymond, E. (1997): The Cathedral and the Bazaar, http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/ Christian Schieder Open Source Data Mining Tools 6 DMC-Anwendertage, Leipzig 2007
  • 7.
    Gliederung Open Source DataMining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 7 DMC-Anwendertage, Leipzig 2007
  • 8.
    Relevante Projekte amMarkt 2. Marktüberblick WEKA [v.3.5.5] Rattle [v.2.2.58] RapidMiner [v.4.0.0] Orange [v.0.9.7] KNIME [v.1.2.1] Daneben: ca. 100+ weitere (teilw. nur rudimentäre) Projekte R-Project: R is a statistical and data mining package consisting of a programming language and a graphics system. Christian Schieder Open Source Data Mining Tools 8 DMC-Anwendertage, Leipzig 2007
  • 9.
    Projektsteckbrief WEKA (I) 2.Marktüberblick WEKA: Waikato Environment for Knowledge Analysis Aktuelles Release: v.3.5.6 Lizenz: GPL Entwickler: Universität Waikato, Hamilton, Neuseeland Projektbeginn: 1996 (1993) Projektseite: http://www.cs.waikato.ac.nz/~ml/weka/ http://sourceforge.net/projects/weka/ Besonderheiten: 3-teilige GUI: Explorer, Knowledge Flow, Experimenter Basis für (fast alle anderen) Open Source Data Mining Tools Christian Schieder Open Source Data Mining Tools 9 DMC-Anwendertage, Leipzig 2007
  • 10.
    Projektsteckbrief WEKA (II):Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 10 DMC-Anwendertage, Leipzig 2007
  • 11.
    Projektsteckbrief WEKA (III):Download Impact 2. Marktüberblick Download History Weka Christian Schieder Open Source Data Mining Tools 11 DMC-Anwendertage, Leipzig 2007
  • 12.
    Projektsteckbrief RapidMiner (I) 2.Marktüberblick RapidMiner (Yale) Aktuelles Release: v.4.0.0 [Yale v.3.5.0] Lizenz: GPL + Kommerziell Entwickler: Universität Dortmund (Lehrstuhl für Künstliche Intelligenz) Rapid-i GbR (Spin-Off) Projektbeginn: 2001 Projektseite: http://rapid-i.com/ http://sourceforge.net/projects/yale/ Besonderheiten: WEKA-Plug-In Interaktives Online Demo Christian Schieder Open Source Data Mining Tools 12 DMC-Anwendertage, Leipzig 2007
  • 13.
    Projektsteckbrief RapidMiner (II):Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 13 DMC-Anwendertage, Leipzig 2007
  • 14.
    Projektsteckbrief RapidMiner (III):Download Impact 2. Marktüberblick Download History RapidMiner Christian Schieder Open Source Data Mining Tools 14 DMC-Anwendertage, Leipzig 2007
  • 15.
    Projektsteckbrief KNIME (I) 2.Marktüberblick KNIME: KoNstanz Information MinEr [naIm] Aktuelles Release: v.1.2.1 Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell Entwickler: Universität Konstanz (Chair for Bioinformatics and Information Mining) KNIME GmbH (Spin-Off) Projektbeginn: 2005 Projektseite: http://www.knime.org Besonderheiten: Eclipse Plug-In/RCP Integration in OS-Reporting-Tools (BIRT, jFreeCharts) Christian Schieder Open Source Data Mining Tools 15 DMC-Anwendertage, Leipzig 2007
  • 16.
    Projektsteckbrief KNIME (II):Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 16 DMC-Anwendertage, Leipzig 2007
  • 17.
    Gliederung Open Source DataMining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 17 DMC-Anwendertage, Leipzig 2007
  • 18.
    CRISP-DM: CRoss-Industry StandardProcess for Data Mining 3. Evaluation Business Data Understanding Understanding Schwerpunkte der Untersuchung Data Preparation Deployment Data Modeling Evaluation Quelle: http://www.crisp-dm.org/Process/index.htm Christian Schieder Open Source Data Mining Tools 18 DMC-Anwendertage, Leipzig 2007
  • 19.
    Grundzüge des Untersuchungsdesigns 3.Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Clementine als challengers leaders Referenzprodukt für die Untersuchung SAS SPSS [Microsoft] (IBM) ability to execute (Oracle) FairIsaac (Prudsys) KXEN (Bissantz) Unica Chordiant Portrait Teradata ThinkAnalytics niche players visionaries completeness of vision Quellen: Gartner 2006 (Barc 2001) Christian Schieder Open Source Data Mining Tools 19 DMC-Anwendertage, Leipzig 2007
  • 20.
    Grundzüge des Untersuchungsdesigns 3.Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Anwendung der OS-Tools auf die Beispiele und Daten von Clementine… Evaluierung von insgesamt 25 Einzelkriterien in 8 Kategorien verglichen mit Clementine Auswertung, Zusammenfassung und Vergleich der Testprotokolle… Christian Schieder Open Source Data Mining Tools 20 DMC-Anwendertage, Leipzig 2007
  • 21.
    Untersuchungskategorien 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA Christian Schieder Open Source Data Mining Tools 21 DMC-Anwendertage, Leipzig 2007
  • 22.
    Ergebnisse der Untersuchung:WEKA 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA [WEKA Version 3.5.5] Christian Schieder Open Source Data Mining Tools 22 DMC-Anwendertage, Leipzig 2007
  • 23.
    Ergebnisse der Untersuchung:RapidMiner 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Anm.: Die Bewertung bezieht sich auf YALE Version 3.4.0. Das im Mai Data Preparation Data Understanding 2007 erschienene Major-Relase mit der Umbennenung in RapidMiner bietet insbesondere in den schwachen Bereichen (Data Preparation, Ergonomie) RapidMiner [YALE Version 3.4.0] erhebliche Verbesserungen. Christian Schieder Open Source Data Mining Tools 23 DMC-Anwendertage, Leipzig 2007
  • 24.
    Ergebnisse der Untersuchung:KNIME 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding KNIME [KNIME Version 1.2.0] Christian Schieder Open Source Data Mining Tools 24 DMC-Anwendertage, Leipzig 2007
  • 25.
    Zusammenschau der Ergebnisse(I) 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA RapidMiner KNIME Christian Schieder Open Source Data Mining Tools 25 DMC-Anwendertage, Leipzig 2007
  • 26.
    Gliederung Open Source DataMining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 26 DMC-Anwendertage, Leipzig 2007
  • 27.
    Zusammenschau der Ergebnisse 4.Fazit Relativ hoher Reifegrad aller 3 untersuchten Produkte Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai 2007) leicht vorn Aber: spezifische Stärken und Schwächen in jeden Tool Keines der Tools erreicht das Referenzprodukt in allen Kategorien Aber: In einzelnen Eigenschaften durchaus gleichwertig Insbesondere bei Offenheit, Anpassbarkeit und Interoperabilität deutliche Vorteile (Plug-Ins, XML) Christian Schieder Open Source Data Mining Tools 27 DMC-Anwendertage, Leipzig 2007
  • 28.
    Magic Quadrant forOpen Source Data Mining Tools 4. Fazit challengers leaders Rapid Miner Fitness for Use KNIME Weka Rattle Orange RKWard niche players visionaries Future Relevance As of Q2/07 © TU Chemnitz Christian Schieder Open Source Data Mining Tools 28 DMC-Anwendertage, Leipzig 2007
  • 29.
    Zusammenfassung 4. Fazit Fazit: OS-Data-Mining-Tools erreichen heute (noch) nicht (in allen Belangen) die Leistungsfähigkeit kommerzieller Produkte Aber: OS-Tools entwickeln sich sehr dynamisch Frage: Reichen mir 90% der Funktionalität von Clementine? Tipp: Anforderungen genau definieren und OS-Tools im Einzelfall untersuchen Folgen: wachsender Reifegrad von Open Source Tools steigende Relevanz von OS Tools zunehmender Preisdruck für Anbieter Stärkung der Kundenposition Christian Schieder Open Source Data Mining Tools 29 DMC-Anwendertage, Leipzig 2007