SlideShare ist ein Scribd-Unternehmen logo
Open Source Data Mining Tools
 – Marktüberblick und Produktevaluation –



          Christian Schieder   Data-Mining-Cup Anwendertage 2007
                               Leipzig
                               20. 06. 2007




                                                                   1
Open Source in aller Munde
Open Source Data Mining Tools




                                 *




                                     * Kleijn, A. : Business Intelligence mit Open Source,
                                       Heise open / Markt, Juni 2006,
                                       http://www.heise.de/open/artikel/73725

Christian Schieder
Open Source Data Mining Tools                                                        2
DMC-Anwendertage, Leipzig 2007
Open Source Data Mining im Gartner Hype Cycle
Open Source Data Mining Tools




                           visibility


                                               Virtual Data
                                             Federation/EII              Dashboards/Scorecards
                                                                         Corporate Performance Management
                                     BAM/Real-Time BI


                                     SOA-Enabled BI
                                                                                                                                               EBISs
                                     Convergence                                                                                       ETL
                                 EBIS/BI Platforms                                                                           Web       Tools
                                                                                                                           Analytics
                                      Advanced                                                                                                      Production/
                                       Analytics                                                                                            OLAP    Formatted/
                            Collaborative BI            Data Warehouse                                                       BI Platforms           Web
                                                        Appliance                  Metadata Tools                                                   Reporting
                                  Embedded
                                   Analytics                                                                    Data Mining Workbenches
                                                     Open Source BI                ETL Embedded
                               Visual BI              Text Mining                       in DBMS
                            Development             Open Source DBMS                                         ODBO/MDX and XML for Analysis Standard
                                   Tools                                                                     Data Quality
                                                   Cross-Enterprise                          Business
                                    64-bit         Analytics                    B2B BI      Application
                                 Hardware                                      Extranets       Data
                                                                                            Warehouses
                                        Analytical Process Controlling
                                                                                                                                               As of July 2005
                                                           Peak of
                                     Technology                                 Trough of                                                    Plateau of
                                                           Inflated                                       Slope of Enlightenment
                                       Trigger                               Disillusionment                                                Productivity
                                                         Expectations
                                                                                           maturity
                                 Plateau will be reached in:
                                                                                                                                          obsolete
                                   less than 2 years            2 to 5 years          5 to 10 years         more than 10 years            before plateau


                                                                                                                                                                  Quelle: Gartner 2005

Christian Schieder
Open Source Data Mining Tools                                                                                                                                                       3
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1. Grundlagen
                           2. Marktüberblick
                           3. Evaluation
                           4. Fazit




Christian Schieder
Open Source Data Mining Tools                  4
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1. Grundlagen
                           2.    Marktüberblick

                           3.    Evaluation

                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                     5
DMC-Anwendertage, Leipzig 2007
Open Source: Spezifika
1. Grundlagen




                                 Lizenzierungsmodell

                                      Copy-Right vs. Copy-Left

                                     Im Data Mining Bereich häufig Dual Licensing


                                 Entwicklungsmodell

                                     Hybrides Modell: formale und agile Elemente
                                     (Cathedral vs. Bazaar)1

                                     Paradigmen: Kollaboration, Iteration, Modularisierung

                                     “Community“-Phänomen




                                                            1 Raymond, E. (1997): The Cathedral and the Bazaar,
                                                              http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/
Christian Schieder
Open Source Data Mining Tools                                                                                                        6
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2. Marktüberblick
                           3.    Evaluation

                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                  7
DMC-Anwendertage, Leipzig 2007
Relevante Projekte am Markt
2. Marktüberblick




                                      WEKA     [v.3.5.5]           Rattle    [v.2.2.58]


                                      RapidMiner [v.4.0.0]         Orange [v.0.9.7]


                                      KNIME [v.1.2.1]




                    Daneben:     ca. 100+ weitere (teilw. nur rudimentäre) Projekte
                    R-Project:   R is a statistical and data mining package consisting
                                 of a programming language and a graphics system.




Christian Schieder
Open Source Data Mining Tools                                                             8
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (I)
2. Marktüberblick



           WEKA: Waikato Environment for Knowledge Analysis

                             Aktuelles Release: v.3.5.6
                             Lizenz: GPL
                             Entwickler: Universität Waikato, Hamilton, Neuseeland
                             Projektbeginn: 1996 (1993)


                             Projektseite:
                                   http://www.cs.waikato.ac.nz/~ml/weka/
                                   http://sourceforge.net/projects/weka/


                             Besonderheiten:
                                   3-teilige GUI: Explorer, Knowledge Flow, Experimenter
                                   Basis für (fast alle anderen) Open Source Data Mining Tools




Christian Schieder
Open Source Data Mining Tools                                                                    9
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools          10
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief WEKA (III): Download Impact
2. Marktüberblick




                                 Download History Weka




Christian Schieder
Open Source Data Mining Tools                            11
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (I)
2. Marktüberblick


              RapidMiner (Yale)

                             Aktuelles Release: v.4.0.0 [Yale v.3.5.0]
                             Lizenz: GPL + Kommerziell
                             Entwickler:
                                   Universität Dortmund (Lehrstuhl für Künstliche Intelligenz)
                                   Rapid-i GbR (Spin-Off)
                             Projektbeginn: 2001

                             Projektseite:
                                   http://rapid-i.com/
                                   http://sourceforge.net/projects/yale/


                             Besonderheiten:
                                   WEKA-Plug-In
                                   Interaktives Online Demo


Christian Schieder
Open Source Data Mining Tools                                                                    12
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools                13
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief RapidMiner (III): Download Impact
2. Marktüberblick




                                 Download History RapidMiner




Christian Schieder
Open Source Data Mining Tools                                  14
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief KNIME (I)
2. Marktüberblick


           KNIME: KoNstanz Information MinEr [naIm]

                             Aktuelles Release: v.1.2.1
                             Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell

                             Entwickler:
                                   Universität Konstanz (Chair for Bioinformatics and Information Mining)
                                   KNIME GmbH (Spin-Off)
                             Projektbeginn: 2005


                             Projektseite: http://www.knime.org


                             Besonderheiten:
                                   Eclipse Plug-In/RCP
                                   Integration in OS-Reporting-Tools (BIRT, jFreeCharts)



Christian Schieder
Open Source Data Mining Tools                                                                               15
DMC-Anwendertage, Leipzig 2007
Projektsteckbrief KNIME (II): Screens
2. Marktüberblick




Christian Schieder
Open Source Data Mining Tools           16
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2.    Marktüberblick

                           3. Evaluation
                           4.    Fazit




Christian Schieder
Open Source Data Mining Tools                     17
DMC-Anwendertage, Leipzig 2007
CRISP-DM: CRoss-Industry Standard Process for Data Mining
3. Evaluation




                                           Business                      Data
                                         Understanding                Understanding
                                                                                                      Schwerpunkte der Untersuchung




                                                                                  Data
                                                                               Preparation

                                 Deployment                Data


                                                                                Modeling




                                                         Evaluation




                                                                                             Quelle: http://www.crisp-dm.org/Process/index.htm

Christian Schieder
Open Source Data Mining Tools                                                                                                                18
DMC-Anwendertage, Leipzig 2007
Grundzüge des Untersuchungsdesigns
3. Evaluation




                                 Vorauswahl der Open Source Tools
                                 (Internet-Recherchen)…
                                      SPSS Clementine als kommerzielles
                                        Referenzprodukt…
                                                                                                                    Clementine als
                                                                     challengers             leaders                Referenzprodukt
                                                                                                                    für die
                                                                                                                    Untersuchung
                                                                                                     SAS
                                                                                                             SPSS
                                                                            [Microsoft]             (IBM)
                                                ability to execute




                                                                                          (Oracle)
                                                                           FairIsaac
                                                                                         (Prudsys)
                                                                                     KXEN       (Bissantz)
                                                                         Unica
                                                                                       Chordiant
                                                                                              Portrait
                                                                      Teradata
                                                                                     ThinkAnalytics


                                                                     niche players           visionaries
                                                                                   completeness of vision                       Quellen: Gartner 2006
                                                                                                                                          (Barc 2001)

Christian Schieder
Open Source Data Mining Tools                                                                                                                     19
DMC-Anwendertage, Leipzig 2007
Grundzüge des Untersuchungsdesigns
3. Evaluation




                             Vorauswahl der Open Source Tools
                             (Internet-Recherchen)…
                                  SPSS Clementine als kommerzielles
                                    Referenzprodukt…

                                      Anwendung der OS-Tools auf die Beispiele
                                      und Daten von Clementine…

                                           Evaluierung von insgesamt 25 Einzelkriterien
                                           in 8 Kategorien verglichen mit Clementine

                                                Auswertung, Zusammenfassung und
                                                Vergleich der Testprotokolle…




Christian Schieder
Open Source Data Mining Tools                                                             20
DMC-Anwendertage, Leipzig 2007
Untersuchungskategorien
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            WEKA

Christian Schieder
Open Source Data Mining Tools                                                                          21
DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: WEKA
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            WEKA                              [WEKA Version 3.5.5]

Christian Schieder
Open Source Data Mining Tools                                                                                  22
DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: RapidMiner
  3. Evaluation




                                                  Dokumentation
                                                     10

                                                      8
                                   Auswertungen                          Ergonomie
                                                      6

                                                      4

                                                      2

                                                      0

                                   Methoden                                  Projektmanagement



Anm.:
Die Bewertung bezieht sich auf
YALE Version 3.4.0. Das im Mai Data Preparation                   Data Understanding
2007 erschienene Major-Relase
mit der Umbennenung in
RapidMiner bietet insbesondere in
den schwachen Bereichen (Data
Preparation, Ergonomie)                             RapidMiner                          [YALE Version 3.4.0]
erhebliche Verbesserungen.
  Christian Schieder
  Open Source Data Mining Tools                                                                           23
  DMC-Anwendertage, Leipzig 2007
Ergebnisse der Untersuchung: KNIME
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                            KNIME                            [KNIME Version 1.2.0]

Christian Schieder
Open Source Data Mining Tools                                                                                  24
DMC-Anwendertage, Leipzig 2007
Zusammenschau der Ergebnisse (I)
3. Evaluation




                                                        Dokumentation
                                                           10

                                                            8
                                 Auswertungen                                  Ergonomie
                                                            6

                                                            4

                                                            2

                                                            0

                                 Methoden                                          Projektmanagement




                                     Data Preparation                   Data Understanding




                                                WEKA       RapidMiner      KNIME

Christian Schieder
Open Source Data Mining Tools                                                                          25
DMC-Anwendertage, Leipzig 2007
Gliederung
Open Source Data Mining Tools




                           1.    Grundlagen

                           2.    Marktüberblick

                           3.    Evaluation

                           4. Fazit




Christian Schieder
Open Source Data Mining Tools                     26
DMC-Anwendertage, Leipzig 2007
Zusammenschau der Ergebnisse
4. Fazit




                             Relativ hoher Reifegrad aller 3 untersuchten Produkte
                             Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai
                             2007) leicht vorn
                             Aber: spezifische Stärken und Schwächen in jeden Tool
                             Keines der Tools erreicht das Referenzprodukt in allen
                             Kategorien


                             Aber:
                                 In einzelnen Eigenschaften durchaus gleichwertig
                                 Insbesondere bei Offenheit, Anpassbarkeit und
                                 Interoperabilität deutliche Vorteile (Plug-Ins, XML)



Christian Schieder
Open Source Data Mining Tools                                                            27
DMC-Anwendertage, Leipzig 2007
Magic Quadrant for Open Source Data Mining Tools
4. Fazit




                                                   challengers                 leaders




                                                                                  Rapid
                                                                                  Miner
                                 Fitness for Use



                                                                                             KNIME
                                                                               Weka




                                                                   Rattle

                                                                      Orange

                                                                                               RKWard


                                                   niche players               visionaries

                                                                       Future Relevance




                                                                                                          As of Q2/07
                                                                                                        © TU Chemnitz

Christian Schieder
Open Source Data Mining Tools                                                                                     28
DMC-Anwendertage, Leipzig 2007
Zusammenfassung
4. Fazit



                                 Fazit:    OS-Data-Mining-Tools erreichen heute (noch)
                                           nicht (in allen Belangen) die Leistungsfähigkeit
                                           kommerzieller Produkte
                                 Aber:     OS-Tools entwickeln sich sehr dynamisch

                                 Frage: Reichen mir 90% der Funktionalität von Clementine?

                                 Tipp:     Anforderungen genau definieren und OS-Tools im
                                           Einzelfall untersuchen
                                 Folgen:
                                           wachsender Reifegrad von Open Source Tools

                                           steigende Relevanz von OS Tools

                                           zunehmender Preisdruck für Anbieter

                                           Stärkung der Kundenposition

Christian Schieder
Open Source Data Mining Tools                                                                 29
DMC-Anwendertage, Leipzig 2007

Weitere ähnliche Inhalte

Was ist angesagt?

Datenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
Datenqualitätsanalyse mit modernen Business-Intelligence-WerkzeugenDatenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
Datenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
Business Intelligence Research
 
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTINGOracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
OPITZ CONSULTING Deutschland
 
Aras Partner Solution by SEEBURGER
Aras Partner Solution by SEEBURGERAras Partner Solution by SEEBURGER
Aras Partner Solution by SEEBURGER
Aras
 
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business IntelligenceTom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
Stephan Trahasch
 
SharePoint Eingangsrechnungsverwaltung mit ecspand
SharePoint Eingangsrechnungsverwaltung mit ecspandSharePoint Eingangsrechnungsverwaltung mit ecspand
SharePoint Eingangsrechnungsverwaltung mit ecspand
Christian Kiesewetter
 
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
Gerald Pitschek
 
100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand
Christian Kiesewetter
 
Enterprise Content Management am SharePoint mit ecspand
Enterprise Content Management am SharePoint mit ecspandEnterprise Content Management am SharePoint mit ecspand
Enterprise Content Management am SharePoint mit ecspand
Christian Kiesewetter
 
Enterprise Content Management im Zeichen von Enterprise 2.0
Enterprise Content Management im Zeichen von Enterprise 2.0Enterprise Content Management im Zeichen von Enterprise 2.0
Enterprise Content Management im Zeichen von Enterprise 2.0
Thorsten Zoerner
 
Sf42 sapience 2010
Sf42 sapience 2010Sf42 sapience 2010
Sf42 sapience 2010
Michael G. Frohn
 
Didi rueetschi business intelligence power hour
Didi rueetschi business intelligence   power hourDidi rueetschi business intelligence   power hour
Didi rueetschi business intelligence power hour
Digicomp Academy AG
 
Datenqualitätsmanagement aus unternehmensweiter Sicht
Datenqualitätsmanagement aus unternehmensweiter SichtDatenqualitätsmanagement aus unternehmensweiter Sicht
Datenqualitätsmanagement aus unternehmensweiter Sicht
Business Intelligence Research
 

Was ist angesagt? (12)

Datenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
Datenqualitätsanalyse mit modernen Business-Intelligence-WerkzeugenDatenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
Datenqualitätsanalyse mit modernen Business-Intelligence-Werkzeugen
 
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTINGOracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
Oracle BI Suite 11g - DOAG Konferenz 2010 - OPITZ CONSULTING
 
Aras Partner Solution by SEEBURGER
Aras Partner Solution by SEEBURGERAras Partner Solution by SEEBURGER
Aras Partner Solution by SEEBURGER
 
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business IntelligenceTom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
 
SharePoint Eingangsrechnungsverwaltung mit ecspand
SharePoint Eingangsrechnungsverwaltung mit ecspandSharePoint Eingangsrechnungsverwaltung mit ecspand
SharePoint Eingangsrechnungsverwaltung mit ecspand
 
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
Re-Use von ECM Projektloesungen durch Anwendungspattern (ECM-Pattern)
 
100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand100% ECM für SharePoint mit ecspand
100% ECM für SharePoint mit ecspand
 
Enterprise Content Management am SharePoint mit ecspand
Enterprise Content Management am SharePoint mit ecspandEnterprise Content Management am SharePoint mit ecspand
Enterprise Content Management am SharePoint mit ecspand
 
Enterprise Content Management im Zeichen von Enterprise 2.0
Enterprise Content Management im Zeichen von Enterprise 2.0Enterprise Content Management im Zeichen von Enterprise 2.0
Enterprise Content Management im Zeichen von Enterprise 2.0
 
Sf42 sapience 2010
Sf42 sapience 2010Sf42 sapience 2010
Sf42 sapience 2010
 
Didi rueetschi business intelligence power hour
Didi rueetschi business intelligence   power hourDidi rueetschi business intelligence   power hour
Didi rueetschi business intelligence power hour
 
Datenqualitätsmanagement aus unternehmensweiter Sicht
Datenqualitätsmanagement aus unternehmensweiter SichtDatenqualitätsmanagement aus unternehmensweiter Sicht
Datenqualitätsmanagement aus unternehmensweiter Sicht
 

Andere mochten auch

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
Masahiro Yamaguchi
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
Hiroshi Ono
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)
Hirosuke Asano
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
Hirosuke Asano
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
antibayesian 俺がS式だ
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
smzkng
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
antibayesian 俺がS式だ
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
saito_hirokazu
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
Shintaro Takemura
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
Yoshifumi Seki
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
Yudai Shinbo
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
The Japan DataScientist Society
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
Takeshi Arabiki
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
Koichiro Kondo
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
y-uti
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
Yutaka Shimada
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
 

Andere mochten auch (20)

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 

Ähnlich wie Open Source Data Mining - Data Mining Cup 2007

Open Source Business Intelligence - TDWI 2007
Open Source Business Intelligence - TDWI 2007Open Source Business Intelligence - TDWI 2007
Open Source Business Intelligence - TDWI 2007
Christian Schieder
 
Unternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
Unternehmensweites DQ-Controlling auf Basis von BI-WerkzeugenUnternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
Unternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
Vizlib Ltd.
 
Liferay Portal - ein Webportal für viele Unternehmensanforderungen
Liferay Portal - ein Webportal für viele UnternehmensanforderungenLiferay Portal - ein Webportal für viele Unternehmensanforderungen
Liferay Portal - ein Webportal für viele Unternehmensanforderungen
GFU Cyrus AG
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
BARC GmbH
 
Andreas Pleschek zu den Clients der Zukunft
Andreas Pleschek zu den Clients der ZukunftAndreas Pleschek zu den Clients der Zukunft
Andreas Pleschek zu den Clients der Zukunft
IBM Lotus
 
Reporting & Business Intelligence
Reporting & Business IntelligenceReporting & Business Intelligence
Reporting & Business Intelligence
Innovabee GmbH
 
Schulug Grundlagen SAP BI / BW
Schulug Grundlagen SAP BI / BWSchulug Grundlagen SAP BI / BW
Schulug Grundlagen SAP BI / BW
A. LE
 
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
Thorsten Firzlaff
 
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
Christian Schieder
 
Power BI Version 2.0
Power BI Version 2.0Power BI Version 2.0
Power BI Version 2.0
inovex GmbH
 
Next generation sap bi 2012
Next generation sap bi 2012 Next generation sap bi 2012
Next generation sap bi 2012
Maria Willamowius
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
BATbern
 
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
Netzwerk-Verlag
 
Mit Office 365 ab in die Cloud?
Mit Office 365 ab in die Cloud?Mit Office 365 ab in die Cloud?
Mit Office 365 ab in die Cloud?
A. Baggenstos & Co. AG
 
20101207 uni leipzig_oraclebpm_suite.slideshare
20101207 uni leipzig_oraclebpm_suite.slideshare20101207 uni leipzig_oraclebpm_suite.slideshare
20101207 uni leipzig_oraclebpm_suite.slideshare
Jens Hündling
 
SQL 2012: Business Intelligence mit dem Microsoft BI-Stack
SQL 2012: Business Intelligence mit dem Microsoft BI-StackSQL 2012: Business Intelligence mit dem Microsoft BI-Stack
SQL 2012: Business Intelligence mit dem Microsoft BI-Stack
Digicomp Academy AG
 
Versteckte Schätze in Oracle BPM und SOA Suite - DOAG Konferenz 2011 - OPITZ...
Versteckte Schätze in Oracle BPM und SOA Suite  - DOAG Konferenz 2011 - OPITZ...Versteckte Schätze in Oracle BPM und SOA Suite  - DOAG Konferenz 2011 - OPITZ...
Versteckte Schätze in Oracle BPM und SOA Suite - DOAG Konferenz 2011 - OPITZ...
OPITZ CONSULTING Deutschland
 

Ähnlich wie Open Source Data Mining - Data Mining Cup 2007 (20)

Open Source Business Intelligence - TDWI 2007
Open Source Business Intelligence - TDWI 2007Open Source Business Intelligence - TDWI 2007
Open Source Business Intelligence - TDWI 2007
 
Unternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
Unternehmensweites DQ-Controlling auf Basis von BI-WerkzeugenUnternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
Unternehmensweites DQ-Controlling auf Basis von BI-Werkzeugen
 
Liferay Portal - ein Webportal für viele Unternehmensanforderungen
Liferay Portal - ein Webportal für viele UnternehmensanforderungenLiferay Portal - ein Webportal für viele Unternehmensanforderungen
Liferay Portal - ein Webportal für viele Unternehmensanforderungen
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Andreas Pleschek zu den Clients der Zukunft
Andreas Pleschek zu den Clients der ZukunftAndreas Pleschek zu den Clients der Zukunft
Andreas Pleschek zu den Clients der Zukunft
 
Reporting & Business Intelligence
Reporting & Business IntelligenceReporting & Business Intelligence
Reporting & Business Intelligence
 
mühlnickel beit_PechaKucha
mühlnickel beit_PechaKuchamühlnickel beit_PechaKucha
mühlnickel beit_PechaKucha
 
Schulug Grundlagen SAP BI / BW
Schulug Grundlagen SAP BI / BWSchulug Grundlagen SAP BI / BW
Schulug Grundlagen SAP BI / BW
 
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hatIT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
 
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
 
Bi
BiBi
Bi
 
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
Operational Intelligence im Kontext des Enterprise Decision Managements - MKW...
 
Power BI Version 2.0
Power BI Version 2.0Power BI Version 2.0
Power BI Version 2.0
 
Next generation sap bi 2012
Next generation sap bi 2012 Next generation sap bi 2012
Next generation sap bi 2012
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
Erfolg Ausgabe 1/2 2008 vom 26. Februar 2008
 
Mit Office 365 ab in die Cloud?
Mit Office 365 ab in die Cloud?Mit Office 365 ab in die Cloud?
Mit Office 365 ab in die Cloud?
 
20101207 uni leipzig_oraclebpm_suite.slideshare
20101207 uni leipzig_oraclebpm_suite.slideshare20101207 uni leipzig_oraclebpm_suite.slideshare
20101207 uni leipzig_oraclebpm_suite.slideshare
 
SQL 2012: Business Intelligence mit dem Microsoft BI-Stack
SQL 2012: Business Intelligence mit dem Microsoft BI-StackSQL 2012: Business Intelligence mit dem Microsoft BI-Stack
SQL 2012: Business Intelligence mit dem Microsoft BI-Stack
 
Versteckte Schätze in Oracle BPM und SOA Suite - DOAG Konferenz 2011 - OPITZ...
Versteckte Schätze in Oracle BPM und SOA Suite  - DOAG Konferenz 2011 - OPITZ...Versteckte Schätze in Oracle BPM und SOA Suite  - DOAG Konferenz 2011 - OPITZ...
Versteckte Schätze in Oracle BPM und SOA Suite - DOAG Konferenz 2011 - OPITZ...
 

Mehr von Christian Schieder

Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
Christian Schieder
 
Dynamisierung von Pricingprozessen
Dynamisierung von PricingprozessenDynamisierung von Pricingprozessen
Dynamisierung von Pricingprozessen
Christian Schieder
 
Operational Intelligence
Operational IntelligenceOperational Intelligence
Operational Intelligence
Christian Schieder
 
PalOOCa - PaloCon2007
PalOOCa - PaloCon2007PalOOCa - PaloCon2007
PalOOCa - PaloCon2007
Christian Schieder
 
Operational Intelligence - TDWI Europe 2008
Operational Intelligence - TDWI Europe 2008Operational Intelligence - TDWI Europe 2008
Operational Intelligence - TDWI Europe 2008
Christian Schieder
 
CeBIT 2007 - BI goes Open Source
CeBIT 2007 - BI goes Open SourceCeBIT 2007 - BI goes Open Source
CeBIT 2007 - BI goes Open Source
Christian Schieder
 
Angebot und Nachfrage für Open Source Business Intelligence
Angebot und Nachfrage für Open Source Business IntelligenceAngebot und Nachfrage für Open Source Business Intelligence
Angebot und Nachfrage für Open Source Business Intelligence
Christian Schieder
 

Mehr von Christian Schieder (8)

Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
Grundzüge einer Pathologie medienbezogener Störungen im Web 2.0
 
Dynamisierung von Pricingprozessen
Dynamisierung von PricingprozessenDynamisierung von Pricingprozessen
Dynamisierung von Pricingprozessen
 
PalOOCa - CeBIT 2008
PalOOCa - CeBIT 2008PalOOCa - CeBIT 2008
PalOOCa - CeBIT 2008
 
Operational Intelligence
Operational IntelligenceOperational Intelligence
Operational Intelligence
 
PalOOCa - PaloCon2007
PalOOCa - PaloCon2007PalOOCa - PaloCon2007
PalOOCa - PaloCon2007
 
Operational Intelligence - TDWI Europe 2008
Operational Intelligence - TDWI Europe 2008Operational Intelligence - TDWI Europe 2008
Operational Intelligence - TDWI Europe 2008
 
CeBIT 2007 - BI goes Open Source
CeBIT 2007 - BI goes Open SourceCeBIT 2007 - BI goes Open Source
CeBIT 2007 - BI goes Open Source
 
Angebot und Nachfrage für Open Source Business Intelligence
Angebot und Nachfrage für Open Source Business IntelligenceAngebot und Nachfrage für Open Source Business Intelligence
Angebot und Nachfrage für Open Source Business Intelligence
 

Open Source Data Mining - Data Mining Cup 2007

  • 1. Open Source Data Mining Tools – Marktüberblick und Produktevaluation – Christian Schieder Data-Mining-Cup Anwendertage 2007 Leipzig 20. 06. 2007 1
  • 2. Open Source in aller Munde Open Source Data Mining Tools * * Kleijn, A. : Business Intelligence mit Open Source, Heise open / Markt, Juni 2006, http://www.heise.de/open/artikel/73725 Christian Schieder Open Source Data Mining Tools 2 DMC-Anwendertage, Leipzig 2007
  • 3. Open Source Data Mining im Gartner Hype Cycle Open Source Data Mining Tools visibility Virtual Data Federation/EII Dashboards/Scorecards Corporate Performance Management BAM/Real-Time BI SOA-Enabled BI EBISs Convergence ETL EBIS/BI Platforms Web Tools Analytics Advanced Production/ Analytics OLAP Formatted/ Collaborative BI Data Warehouse BI Platforms Web Appliance Metadata Tools Reporting Embedded Analytics Data Mining Workbenches Open Source BI ETL Embedded Visual BI Text Mining in DBMS Development Open Source DBMS ODBO/MDX and XML for Analysis Standard Tools Data Quality Cross-Enterprise Business 64-bit Analytics B2B BI Application Hardware Extranets Data Warehouses Analytical Process Controlling As of July 2005 Peak of Technology Trough of Plateau of Inflated Slope of Enlightenment Trigger Disillusionment Productivity Expectations maturity Plateau will be reached in: obsolete less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau Quelle: Gartner 2005 Christian Schieder Open Source Data Mining Tools 3 DMC-Anwendertage, Leipzig 2007
  • 4. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 4 DMC-Anwendertage, Leipzig 2007
  • 5. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 5 DMC-Anwendertage, Leipzig 2007
  • 6. Open Source: Spezifika 1. Grundlagen Lizenzierungsmodell Copy-Right vs. Copy-Left Im Data Mining Bereich häufig Dual Licensing Entwicklungsmodell Hybrides Modell: formale und agile Elemente (Cathedral vs. Bazaar)1 Paradigmen: Kollaboration, Iteration, Modularisierung “Community“-Phänomen 1 Raymond, E. (1997): The Cathedral and the Bazaar, http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/ Christian Schieder Open Source Data Mining Tools 6 DMC-Anwendertage, Leipzig 2007
  • 7. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 7 DMC-Anwendertage, Leipzig 2007
  • 8. Relevante Projekte am Markt 2. Marktüberblick WEKA [v.3.5.5] Rattle [v.2.2.58] RapidMiner [v.4.0.0] Orange [v.0.9.7] KNIME [v.1.2.1] Daneben: ca. 100+ weitere (teilw. nur rudimentäre) Projekte R-Project: R is a statistical and data mining package consisting of a programming language and a graphics system. Christian Schieder Open Source Data Mining Tools 8 DMC-Anwendertage, Leipzig 2007
  • 9. Projektsteckbrief WEKA (I) 2. Marktüberblick WEKA: Waikato Environment for Knowledge Analysis Aktuelles Release: v.3.5.6 Lizenz: GPL Entwickler: Universität Waikato, Hamilton, Neuseeland Projektbeginn: 1996 (1993) Projektseite: http://www.cs.waikato.ac.nz/~ml/weka/ http://sourceforge.net/projects/weka/ Besonderheiten: 3-teilige GUI: Explorer, Knowledge Flow, Experimenter Basis für (fast alle anderen) Open Source Data Mining Tools Christian Schieder Open Source Data Mining Tools 9 DMC-Anwendertage, Leipzig 2007
  • 10. Projektsteckbrief WEKA (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 10 DMC-Anwendertage, Leipzig 2007
  • 11. Projektsteckbrief WEKA (III): Download Impact 2. Marktüberblick Download History Weka Christian Schieder Open Source Data Mining Tools 11 DMC-Anwendertage, Leipzig 2007
  • 12. Projektsteckbrief RapidMiner (I) 2. Marktüberblick RapidMiner (Yale) Aktuelles Release: v.4.0.0 [Yale v.3.5.0] Lizenz: GPL + Kommerziell Entwickler: Universität Dortmund (Lehrstuhl für Künstliche Intelligenz) Rapid-i GbR (Spin-Off) Projektbeginn: 2001 Projektseite: http://rapid-i.com/ http://sourceforge.net/projects/yale/ Besonderheiten: WEKA-Plug-In Interaktives Online Demo Christian Schieder Open Source Data Mining Tools 12 DMC-Anwendertage, Leipzig 2007
  • 13. Projektsteckbrief RapidMiner (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 13 DMC-Anwendertage, Leipzig 2007
  • 14. Projektsteckbrief RapidMiner (III): Download Impact 2. Marktüberblick Download History RapidMiner Christian Schieder Open Source Data Mining Tools 14 DMC-Anwendertage, Leipzig 2007
  • 15. Projektsteckbrief KNIME (I) 2. Marktüberblick KNIME: KoNstanz Information MinEr [naIm] Aktuelles Release: v.1.2.1 Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell Entwickler: Universität Konstanz (Chair for Bioinformatics and Information Mining) KNIME GmbH (Spin-Off) Projektbeginn: 2005 Projektseite: http://www.knime.org Besonderheiten: Eclipse Plug-In/RCP Integration in OS-Reporting-Tools (BIRT, jFreeCharts) Christian Schieder Open Source Data Mining Tools 15 DMC-Anwendertage, Leipzig 2007
  • 16. Projektsteckbrief KNIME (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 16 DMC-Anwendertage, Leipzig 2007
  • 17. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 17 DMC-Anwendertage, Leipzig 2007
  • 18. CRISP-DM: CRoss-Industry Standard Process for Data Mining 3. Evaluation Business Data Understanding Understanding Schwerpunkte der Untersuchung Data Preparation Deployment Data Modeling Evaluation Quelle: http://www.crisp-dm.org/Process/index.htm Christian Schieder Open Source Data Mining Tools 18 DMC-Anwendertage, Leipzig 2007
  • 19. Grundzüge des Untersuchungsdesigns 3. Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Clementine als challengers leaders Referenzprodukt für die Untersuchung SAS SPSS [Microsoft] (IBM) ability to execute (Oracle) FairIsaac (Prudsys) KXEN (Bissantz) Unica Chordiant Portrait Teradata ThinkAnalytics niche players visionaries completeness of vision Quellen: Gartner 2006 (Barc 2001) Christian Schieder Open Source Data Mining Tools 19 DMC-Anwendertage, Leipzig 2007
  • 20. Grundzüge des Untersuchungsdesigns 3. Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Anwendung der OS-Tools auf die Beispiele und Daten von Clementine… Evaluierung von insgesamt 25 Einzelkriterien in 8 Kategorien verglichen mit Clementine Auswertung, Zusammenfassung und Vergleich der Testprotokolle… Christian Schieder Open Source Data Mining Tools 20 DMC-Anwendertage, Leipzig 2007
  • 21. Untersuchungskategorien 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA Christian Schieder Open Source Data Mining Tools 21 DMC-Anwendertage, Leipzig 2007
  • 22. Ergebnisse der Untersuchung: WEKA 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA [WEKA Version 3.5.5] Christian Schieder Open Source Data Mining Tools 22 DMC-Anwendertage, Leipzig 2007
  • 23. Ergebnisse der Untersuchung: RapidMiner 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Anm.: Die Bewertung bezieht sich auf YALE Version 3.4.0. Das im Mai Data Preparation Data Understanding 2007 erschienene Major-Relase mit der Umbennenung in RapidMiner bietet insbesondere in den schwachen Bereichen (Data Preparation, Ergonomie) RapidMiner [YALE Version 3.4.0] erhebliche Verbesserungen. Christian Schieder Open Source Data Mining Tools 23 DMC-Anwendertage, Leipzig 2007
  • 24. Ergebnisse der Untersuchung: KNIME 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding KNIME [KNIME Version 1.2.0] Christian Schieder Open Source Data Mining Tools 24 DMC-Anwendertage, Leipzig 2007
  • 25. Zusammenschau der Ergebnisse (I) 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA RapidMiner KNIME Christian Schieder Open Source Data Mining Tools 25 DMC-Anwendertage, Leipzig 2007
  • 26. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 26 DMC-Anwendertage, Leipzig 2007
  • 27. Zusammenschau der Ergebnisse 4. Fazit Relativ hoher Reifegrad aller 3 untersuchten Produkte Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai 2007) leicht vorn Aber: spezifische Stärken und Schwächen in jeden Tool Keines der Tools erreicht das Referenzprodukt in allen Kategorien Aber: In einzelnen Eigenschaften durchaus gleichwertig Insbesondere bei Offenheit, Anpassbarkeit und Interoperabilität deutliche Vorteile (Plug-Ins, XML) Christian Schieder Open Source Data Mining Tools 27 DMC-Anwendertage, Leipzig 2007
  • 28. Magic Quadrant for Open Source Data Mining Tools 4. Fazit challengers leaders Rapid Miner Fitness for Use KNIME Weka Rattle Orange RKWard niche players visionaries Future Relevance As of Q2/07 © TU Chemnitz Christian Schieder Open Source Data Mining Tools 28 DMC-Anwendertage, Leipzig 2007
  • 29. Zusammenfassung 4. Fazit Fazit: OS-Data-Mining-Tools erreichen heute (noch) nicht (in allen Belangen) die Leistungsfähigkeit kommerzieller Produkte Aber: OS-Tools entwickeln sich sehr dynamisch Frage: Reichen mir 90% der Funktionalität von Clementine? Tipp: Anforderungen genau definieren und OS-Tools im Einzelfall untersuchen Folgen: wachsender Reifegrad von Open Source Tools steigende Relevanz von OS Tools zunehmender Preisdruck für Anbieter Stärkung der Kundenposition Christian Schieder Open Source Data Mining Tools 29 DMC-Anwendertage, Leipzig 2007