SlideShare ist ein Scribd-Unternehmen logo
1 von 54
Downloaden Sie, um offline zu lesen
Strumenti Open Source per
          Data Mining e Business intelligence

                          Giacomo Gamberoni e Denis Ferraretti
                                  IntelliWARE, Ferrara




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   1
Sommario
                      Data Mining
                      –   Cos'è il Data Mining
                      –   Esempi e dataset
                      –   Tecniche
                      –   WEKA
                      –   Altri progetti



                                                                   Business Intelligence
                                                                    – Scenario tipico
                                                                    – Dai dati alle decisioni
                                                                    – Architettura BI
                                                                    – Pentaho
                                                                    – Beekeper




Ferrara, 2009-10-24       FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence        2
Cos'è il Data Mining

        The non-trivial process of identifying
          –   Valid
          –   Novel
          –   potentially useful, and
          –   ultimately understandable patterns in data.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   3
Esempi di problemi
      Distinguere mail/spam
      Riconoscimento numeri scritti a mano
      Valutazione usato auto
      Distinguere categorie di geni (fori)
      Analisi sondaggi elettorali
      Analisi scontrini della spesa
      Previsione abbandono clienti
      Segmentazione visitatori
      Valutazione afdabilità credito




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   4
UCI Machine Learning Repository




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   5
UCI Machine Learning Repository




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   6
Esempi di dataset




                                                      Market Basket
                                                      Customer 1: beer, pretzels, potato chips, aspirin

                                                      Customer 2: diapers, baby lotion, grapefruit juice,
                                                      baby food, milk

                                                      Customer 3: soda, potato chips, milk

                                                      Customer 4: soup, beer, milk, ice cream

                                                      Customer 5: soda, cofee, milk, bread

                                                      Customer 6: beer, potato chips


Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence                    7
Tecniche di Data Mining
      Pseudo-tecnica
      Alberi decisionali
      Regole associative
      Clustering




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   8
Pseudo problema




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   9
Pseudo soluzione

                                                          IF salary<k then not repaid




                                                      k
   Approccio predittivo/descrittivo

Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   10
Alberi decisionali




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   11
Valutazione della classifcazione
      Si divide il dataset in due parti
        –   Training set (per esempio 90% delle istanze)
        –   Test set (per esempio 10% delle istanze)
      Si usa il training set per apprendere l'albero e si testa il
      risultato usando le istanze del test set
      Si compila la matrice di confusione




      Esiste anche la 10-fold Cross Validation


Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   12
Clustering
      Raggruppare gli elementi con caratteristiche simili
      Attributi numerici
      Non supervisionato (non c'è una classe defnita prima)
      Algoritmi
        –   K-means
        –   Hierarchical




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   13
Regole Associative
      Scontrino   Prodotti                                        Scontrino Latte   Pane   Burro   Birra
      1           Latte, pane                                     1           1     1
      2           Pane, burro                                     2                 1      1
      3           Birra                                           3                                1
      4           Latte, pane, burro                              4           1     1      1
      5           Pane                                            5                 1



      Si basa sul concetto di itemset (insieme di prodotti)
          –   Supporto (frequenza in percentuale)
      Regole tipo: x,y → z
          –   Confdenza = supp(x,y,z)/supp(x,y)
      Possibili regole trovate:
          –   Latte → Pane (supporto 40%, confdenza 100%)
          –   Latte, pane → Burro (supporto 40%, confdenza 50%)


Ferrara, 2009-10-24       FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence                   14
WEKA: il software
      Waikato Environment for Knowledge Analysis
      Collezione di algoritmi allo stato dell'arte per Data Mining, implementato
      in Java
        –   Rilasciato sotto licenza GPL
      Supporto per l'intero processo di Data Mining sperimentale
        –   Preparazione dei dati di input
        –   Valutazione Statistica dei modelli appresi
        –   Visualizzazione degli input e dei risultati
      Usato per la didattica, la ricerca e le applicazioni
      Complemento di “Data Mining” di Witten & Frank




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   15
Main Features
      49       strumenti di preprocessing
      76       algoritmi di classifcazione/regressione
      8        algoritmi di clustering
      3        algoritmi per le regole associative
      15       attribute/subset evaluators
      + 10 algoritmi di ricerca per feature selection
      3        interfacce grafche
        –   “The Explorer” (exploratory data analysis)
        –   “The Experimenter” (experimental environment)
        –   “The KnowledgeFlow” (new process model inspired interface)




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   16
C'era una volta...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   17
Oggi:




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   18
Classifcatori




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   19
Alberi Decisionali




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   20
Knowledge fow




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   21
Experimenter




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   22
Progetti che sfruttano WEKA
     Rapid Miner (suite)




     Gate (NLP)
     GRB Tool Shed
     Judge (Docs)
     Pentaho




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   23
Bibliografa Data Mining
      Data mining
        –   Data Mining: Practical Machine Learning Tools and Techniques (2ed), Ian H. Witten, Eibe Frank,
            Morgan Kaufmann, 2005
        –   Machine Learning, Tom Mitchell, McGraw Hill, 1997.
        –   http://www.kdnuggets.com/
        –   http://www.cs.waikato.ac.nz/ml/weka/

      Algoritmi
        –   Quinlan, J. R. 1986 “Induction of Decision Trees” Mach. Learn. 1, 1 (Mar. 1986), 81-106.
        –   Agrawal R, Imielinski T, Swami AN "Mining Association Rules between Sets of Items in Large
            Databases." SIGMOD. June 1993, 22(2):207-16
        –   MacQueen, J. B. 1967 "Some Methods for classifcation and Analysis of Multivariate
            Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and
            Probability, Berkeley, University of California Press, 1:281-297




Ferrara, 2009-10-24     FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence                 24
uno scenario tipico...
      ...è quello di una grande azienda, con numerose fliali, i cui
      dirigenti desiderano quantifcare e valutare il contributo dato
      da ciascuna di esse al rendimento commerciale globale
      dell’impresa.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   25
uno scenario tipico...
      ...è quello di una grande azienda, con numerose fliali, i cui
      dirigenti desiderano quantifcare e valutare il contributo dato
      da ciascuna di esse al rendimento commerciale globale
      dell’impresa.
                                                   la business intelligence è
                                                    un insieme di strumenti
                                                           e procedure
                                                 che consentono a un'azienda
                                                          di trasformare
                                                    i propri dati di business
                                                       in informazioni utili
                                                    al processo decisionale,
                                                     da rendere disponibili
                                                      alla persona giusta e
                                                        nel formato idoneo




                                                                   BUSINESS INTELLIGENCE
Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   26
dai dati alle informazioni
      l'informazione è un bene a valore
      crescente, necessario per pianifcare
      e controllare le attività aziendali con
      efcacia



      costituisce la materia prima che viene trasformata dai sistemi
      informativi, come i semilavorati vengono trasformati dai
      sistemi di produzione

                                           DATI = INFORMAZIONI

      la disponibilità di troppi dati rende difcile estrapolare le
      informazioni veramente importanti
Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   27
la piramide della BI




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   28
la piattaforma di BI
      Si parla di piattaforma di BI poiché per consentire ai manager
      analisi potenti e fessibili è necessario defnire un’apposita
      infrastruttura hardware e software di supporto composta da:
            ● Hardware dedicato
            ● Infrastrutture di rete

            ● DBMS

            ● Software di back-end

            ● Software di front-end




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   29
architettura di BI




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   30
le domande
      “Che incassi sono stati registrati l’anno passato per ciascuna
      regione e ciascuna categoria di prodotto?”
      “Che correlazione esiste tra l’andamento dei titoli azionari dei
      produttori di PC e i proftti trimestrali lungo gli ultimi 5 anni?”
      “Quali sono gli ordini che massimizzano gli incassi?”
      “Quale di due nuove terapie risulterà in una diminuzione della
      durata media di un ricovero?”
      “Che rapporto c’è tra i proftti realizzati con spedizioni di meno
      di 10 elementi e quelli realizzati con spedizioni di più di 10
      elementi?”




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   31
esempio di aree di utilità
      Commercio
        –   analisi delle vendite e dei reclami, controllo di spedizioni e
            inventari, cura del rapporto con i clienti
      Manifattura
        –   controllo dei costi di produzione, supporto fornitori e ordini
      Servizi fnanziari
        –   analisi del rischio e delle carte di credito, rivelazione di frodi
      Trasporti
        –   gestione parco mezzi
      Telecomunicazioni
        –   analisi del fusso delle chiamate e del proflo dei clienti
      Sanità
        –   analisi di ricoveri e dimissioni, contabilità per centri di costo


Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   32
tecniche di analisi dei dati
      Una volta che i dati sono stati ripuliti, integrati e trasformati,
      occorre capire come trarne il massimo vantaggio informativo
      Esistono in sostanza tre approcci diferenti, supportati da
      altrettante categorie di strumenti, all’interrogazione di un DW
      da parte degli utenti fnali:
        –   OLAP: richiede all’utente di ragionare in modo
            multidimensionale e di conoscere l’interfaccia dello strumento
            grafco utilizzato
        –   reportistica/dashboarding: non richiede conoscenze
            informatiche
        –   data mining: richiede una conoscenza specifca e tecnica
            (consulente)




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   33
strumenti: OLAP                         (On-Line Analytical Processing)

      Analisi dei dati in tempo reale mediante interfacce user friendly
      Dati organizzati in base al modello multidimensionale: i fatti di
      interesse sono rappresentati in cubi.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   34
OLAP: le gerarchie




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   35
OLAP: le operazioni sui cubi




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   36
OLAP: le operazioni sui cubi

      Al manager di prodotto
      interessa la vendita di un
      prodotto in tutti i periodi e
      in tutti i mercati




      Al manager regionale
      interessa la vendita dei
      prodotti in tutti i periodi nei
      propri mercati




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   37
OLAP: le operazioni sui cubi
      Al manager fnanziario
      interessa la vendita dei
      prodotti in tutti i mercati
      relativamente al periodo
      corrente e quello
      precedente



      Il manager strategico si
      concentra su una categoria
      di prodotti, una area
      regionale e un orizzonte
      temporale medio



Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   38
strumenti: REPORTISTICA e DASHBOARDING
      Possibilità di utilizzare un’unica sorgente dati integrata e
      consistente per realizzare la reportistica/dashboarding
      Report sempre aggiornati
      Possibilità di costruire una “visione d’insieme” in tempo reale




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   39
strumenti: DATA MINING
      Ofrono possibilità di analisi “superiori” e complementari
      rispetto a quelle ottenibili tramite i sistemi OLAP
      Richiedono la presenza di “esperti” per
      scegliere/impostare/tarare/interpretare gli algoritmi impiegati




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   40
PENTAHO BI Suite




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   41
PENTAHO
      Pentaho è un software open source commerciale per la
      Business Intelligence
      Pentaho sviluppato a partire dal 2004
      Pentaho comprende: reporting, OLAP analysis, dashboards,
      data integration (ETL), data mining e una piattaforma di BI.




      Software Open Source
      Ha una community per il supporto degli utenti
      Multipiattaforma (Windows, Linux, Macintosh, Solaris, Unix,...)


Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   42
modello di sviluppo Beekeeper
   James Dixon, Pentaho Chief Technology Ofcer




      le api sono libere di andarsene: l'apicoltore deve creare un ambiente
      bello e confortevole
      i clienti non hanno niente a che fare con le api, vogliono solo il loro miele
      la crescita dell'allevamento dipende da quanto miele/cera viene venduto,
      questo dipende in parte dalle capacità del venditore e in parte dalla
      quantità di miele disponibile
      la quantità di miele dipende dal numero di api e questo dipende da
      quanto miele/cera viene lasciato alle api
Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   43
software proprietario e software open source




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   44
software commerciale open source




      rispecchia il modello dell'apicoltore
      include il modello proprietario e quello open
      i clienti sono le aziende



Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   45
PENTAHO architettura
      La Suite PENTAHO
        –   BI Platform
        –   Pentaho Dashboard
        –   Report Designer
        –   Mondrian (OLAP)
        –   Kettle (ETL)
        –   Weka (Data Mining)
      Tutto sviluppato su
      piattaforma JAVA.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   46
PENTAHO




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   47
PENTAHO Dashboard
      Il servizio Dashboard di PENTAHO fornisce, all'utente business,
      le informazioni cruciali per migliorare le performance aziendali
      Consente di avere un'immediata visione di insieme dei diversi
      aspetti aziendali attraverso la visualizzazione accattivante di
      metriche personalizzate




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   48
PENTAHO Reporting
      Consente l'accesso semplice, la formattazione e la
      divulgazione delle informazioni.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   49
PENTAHO Mondrian
      Server Open Source OLAP
      L'interfaccia web è JPivot
      Esplorazione interattiva (slice-
      and-dice,   drill-down)    delle
      informazioni senza la necessità
      di conoscere linguaggi di query




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   50
PENTAHO Kettle
      Consente l'accesso, la pulizia e l'integrazione dei dati aziendali
      Operazioni di estrazione, trasformazione e caricamento dei
      dati, attraverso un ambiente di progettazione grafco.




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   51
PENTAHO Weka
      ...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   52
PENTAHO e oltre...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   53
GRAZIE PER L'ATTENZIONE




                                              www.i-ware.it



Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence   54

Weitere ähnliche Inhalte

Ähnlich wie Linux Day 2009 - intelliWARE - Ferrara

Smart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of ThingsSmart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of ThingsCSI Piemonte
 
Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Matteo Troìa
 
Apps4Italy, il contest italiano sugli Open Data
Apps4Italy, il contest italiano sugli Open DataApps4Italy, il contest italiano sugli Open Data
Apps4Italy, il contest italiano sugli Open DataVincenzo Patruno
 
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015CRS4 Research Center in Sardinia
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiVincenzo Manzoni
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso Istituto nazionale di statistica
 
Ecoh Media & Tableau - luglio 2015
Ecoh Media & Tableau - luglio 2015Ecoh Media & Tableau - luglio 2015
Ecoh Media & Tableau - luglio 2015MauroDadda
 
Verso una Spatial Data Science Seminario 29-11-2017
Verso una Spatial Data Science Seminario 29-11-2017Verso una Spatial Data Science Seminario 29-11-2017
Verso una Spatial Data Science Seminario 29-11-2017Giuliana Bonello
 
Open Data: cosa sono, come funzionano e quali già a disposizione in Italia
Open Data: cosa sono, come funzionano e quali già a disposizione in ItaliaOpen Data: cosa sono, come funzionano e quali già a disposizione in Italia
Open Data: cosa sono, come funzionano e quali già a disposizione in ItaliaVincenzo Patruno
 
Startup e open data a firenze saaa2018
Startup e open data a firenze saaa2018Startup e open data a firenze saaa2018
Startup e open data a firenze saaa2018Francesca De Chiara
 
Nuove tecnologie IT ed impatti organizzativi
Nuove tecnologie IT ed impatti organizzativiNuove tecnologie IT ed impatti organizzativi
Nuove tecnologie IT ed impatti organizzativiMarinuzzi & Associates
 
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...GIDIF-RBM
 
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...Paola Gargiulo
 
Industria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno BellucciaIndustria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno BellucciaBruno Salvatore Belluccia
 
Smau milano 2011 - Cremona-Catalfamo
Smau milano 2011 - Cremona-CatalfamoSmau milano 2011 - Cremona-Catalfamo
Smau milano 2011 - Cremona-CatalfamoSMAU
 
Flowork Srl
Flowork SrlFlowork Srl
Flowork SrlFlowork
 
Open Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteOpen Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteComune di Bologna
 

Ähnlich wie Linux Day 2009 - intelliWARE - Ferrara (20)

Smart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of ThingsSmart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of Things
 
Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2Cultura del dato e interoperabilità - parte 2
Cultura del dato e interoperabilità - parte 2
 
Apps4Italy, il contest italiano sugli Open Data
Apps4Italy, il contest italiano sugli Open DataApps4Italy, il contest italiano sugli Open Data
Apps4Italy, il contest italiano sugli Open Data
 
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati dati
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
 
Ecoh Media & Tableau - luglio 2015
Ecoh Media & Tableau - luglio 2015Ecoh Media & Tableau - luglio 2015
Ecoh Media & Tableau - luglio 2015
 
Verso una Spatial Data Science Seminario 29-11-2017
Verso una Spatial Data Science Seminario 29-11-2017Verso una Spatial Data Science Seminario 29-11-2017
Verso una Spatial Data Science Seminario 29-11-2017
 
Presentation Master Degree
Presentation Master DegreePresentation Master Degree
Presentation Master Degree
 
Open Data: cosa sono, come funzionano e quali già a disposizione in Italia
Open Data: cosa sono, come funzionano e quali già a disposizione in ItaliaOpen Data: cosa sono, come funzionano e quali già a disposizione in Italia
Open Data: cosa sono, come funzionano e quali già a disposizione in Italia
 
Startup e open data a firenze saaa2018
Startup e open data a firenze saaa2018Startup e open data a firenze saaa2018
Startup e open data a firenze saaa2018
 
DS4Biz - Data Science for Business
DS4Biz - Data Science for BusinessDS4Biz - Data Science for Business
DS4Biz - Data Science for Business
 
Nuove tecnologie IT ed impatti organizzativi
Nuove tecnologie IT ed impatti organizzativiNuove tecnologie IT ed impatti organizzativi
Nuove tecnologie IT ed impatti organizzativi
 
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
 
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
 
Industria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno BellucciaIndustria 4.0: Introduzione - Dottor Bruno Belluccia
Industria 4.0: Introduzione - Dottor Bruno Belluccia
 
Smau milano 2011 - Cremona-Catalfamo
Smau milano 2011 - Cremona-CatalfamoSmau milano 2011 - Cremona-Catalfamo
Smau milano 2011 - Cremona-Catalfamo
 
Flowork Srl
Flowork SrlFlowork Srl
Flowork Srl
 
CV completo
CV completoCV completo
CV completo
 
Open Data: l'esperienza del Piemonte
Open Data: l'esperienza del PiemonteOpen Data: l'esperienza del Piemonte
Open Data: l'esperienza del Piemonte
 

Linux Day 2009 - intelliWARE - Ferrara

  • 1. Strumenti Open Source per Data Mining e Business intelligence Giacomo Gamberoni e Denis Ferraretti IntelliWARE, Ferrara Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 1
  • 2. Sommario Data Mining – Cos'è il Data Mining – Esempi e dataset – Tecniche – WEKA – Altri progetti Business Intelligence – Scenario tipico – Dai dati alle decisioni – Architettura BI – Pentaho – Beekeper Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 2
  • 3. Cos'è il Data Mining The non-trivial process of identifying – Valid – Novel – potentially useful, and – ultimately understandable patterns in data. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 3
  • 4. Esempi di problemi Distinguere mail/spam Riconoscimento numeri scritti a mano Valutazione usato auto Distinguere categorie di geni (fori) Analisi sondaggi elettorali Analisi scontrini della spesa Previsione abbandono clienti Segmentazione visitatori Valutazione afdabilità credito Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 4
  • 5. UCI Machine Learning Repository Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 5
  • 6. UCI Machine Learning Repository Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 6
  • 7. Esempi di dataset Market Basket Customer 1: beer, pretzels, potato chips, aspirin Customer 2: diapers, baby lotion, grapefruit juice, baby food, milk Customer 3: soda, potato chips, milk Customer 4: soup, beer, milk, ice cream Customer 5: soda, cofee, milk, bread Customer 6: beer, potato chips Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 7
  • 8. Tecniche di Data Mining Pseudo-tecnica Alberi decisionali Regole associative Clustering Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 8
  • 9. Pseudo problema Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 9
  • 10. Pseudo soluzione IF salary<k then not repaid k Approccio predittivo/descrittivo Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 10
  • 11. Alberi decisionali Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 11
  • 12. Valutazione della classifcazione Si divide il dataset in due parti – Training set (per esempio 90% delle istanze) – Test set (per esempio 10% delle istanze) Si usa il training set per apprendere l'albero e si testa il risultato usando le istanze del test set Si compila la matrice di confusione Esiste anche la 10-fold Cross Validation Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 12
  • 13. Clustering Raggruppare gli elementi con caratteristiche simili Attributi numerici Non supervisionato (non c'è una classe defnita prima) Algoritmi – K-means – Hierarchical Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 13
  • 14. Regole Associative Scontrino Prodotti Scontrino Latte Pane Burro Birra 1 Latte, pane 1 1 1 2 Pane, burro 2 1 1 3 Birra 3 1 4 Latte, pane, burro 4 1 1 1 5 Pane 5 1 Si basa sul concetto di itemset (insieme di prodotti) – Supporto (frequenza in percentuale) Regole tipo: x,y → z – Confdenza = supp(x,y,z)/supp(x,y) Possibili regole trovate: – Latte → Pane (supporto 40%, confdenza 100%) – Latte, pane → Burro (supporto 40%, confdenza 50%) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 14
  • 15. WEKA: il software Waikato Environment for Knowledge Analysis Collezione di algoritmi allo stato dell'arte per Data Mining, implementato in Java – Rilasciato sotto licenza GPL Supporto per l'intero processo di Data Mining sperimentale – Preparazione dei dati di input – Valutazione Statistica dei modelli appresi – Visualizzazione degli input e dei risultati Usato per la didattica, la ricerca e le applicazioni Complemento di “Data Mining” di Witten & Frank Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 15
  • 16. Main Features 49 strumenti di preprocessing 76 algoritmi di classifcazione/regressione 8 algoritmi di clustering 3 algoritmi per le regole associative 15 attribute/subset evaluators + 10 algoritmi di ricerca per feature selection 3 interfacce grafche – “The Explorer” (exploratory data analysis) – “The Experimenter” (experimental environment) – “The KnowledgeFlow” (new process model inspired interface) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 16
  • 17. C'era una volta... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 17
  • 18. Oggi: Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 18
  • 19. Classifcatori Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 19
  • 20. Alberi Decisionali Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 20
  • 21. Knowledge fow Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 21
  • 22. Experimenter Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 22
  • 23. Progetti che sfruttano WEKA Rapid Miner (suite) Gate (NLP) GRB Tool Shed Judge (Docs) Pentaho Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 23
  • 24. Bibliografa Data Mining Data mining – Data Mining: Practical Machine Learning Tools and Techniques (2ed), Ian H. Witten, Eibe Frank, Morgan Kaufmann, 2005 – Machine Learning, Tom Mitchell, McGraw Hill, 1997. – http://www.kdnuggets.com/ – http://www.cs.waikato.ac.nz/ml/weka/ Algoritmi – Quinlan, J. R. 1986 “Induction of Decision Trees” Mach. Learn. 1, 1 (Mar. 1986), 81-106. – Agrawal R, Imielinski T, Swami AN "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16 – MacQueen, J. B. 1967 "Some Methods for classifcation and Analysis of Multivariate Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1:281-297 Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 24
  • 25. uno scenario tipico... ...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 25
  • 26. uno scenario tipico... ...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa. la business intelligence è un insieme di strumenti e procedure che consentono a un'azienda di trasformare i propri dati di business in informazioni utili al processo decisionale, da rendere disponibili alla persona giusta e nel formato idoneo BUSINESS INTELLIGENCE Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 26
  • 27. dai dati alle informazioni l'informazione è un bene a valore crescente, necessario per pianifcare e controllare le attività aziendali con efcacia costituisce la materia prima che viene trasformata dai sistemi informativi, come i semilavorati vengono trasformati dai sistemi di produzione DATI = INFORMAZIONI la disponibilità di troppi dati rende difcile estrapolare le informazioni veramente importanti Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 27
  • 28. la piramide della BI Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 28
  • 29. la piattaforma di BI Si parla di piattaforma di BI poiché per consentire ai manager analisi potenti e fessibili è necessario defnire un’apposita infrastruttura hardware e software di supporto composta da: ● Hardware dedicato ● Infrastrutture di rete ● DBMS ● Software di back-end ● Software di front-end Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 29
  • 30. architettura di BI Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 30
  • 31. le domande “Che incassi sono stati registrati l’anno passato per ciascuna regione e ciascuna categoria di prodotto?” “Che correlazione esiste tra l’andamento dei titoli azionari dei produttori di PC e i proftti trimestrali lungo gli ultimi 5 anni?” “Quali sono gli ordini che massimizzano gli incassi?” “Quale di due nuove terapie risulterà in una diminuzione della durata media di un ricovero?” “Che rapporto c’è tra i proftti realizzati con spedizioni di meno di 10 elementi e quelli realizzati con spedizioni di più di 10 elementi?” Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 31
  • 32. esempio di aree di utilità Commercio – analisi delle vendite e dei reclami, controllo di spedizioni e inventari, cura del rapporto con i clienti Manifattura – controllo dei costi di produzione, supporto fornitori e ordini Servizi fnanziari – analisi del rischio e delle carte di credito, rivelazione di frodi Trasporti – gestione parco mezzi Telecomunicazioni – analisi del fusso delle chiamate e del proflo dei clienti Sanità – analisi di ricoveri e dimissioni, contabilità per centri di costo Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 32
  • 33. tecniche di analisi dei dati Una volta che i dati sono stati ripuliti, integrati e trasformati, occorre capire come trarne il massimo vantaggio informativo Esistono in sostanza tre approcci diferenti, supportati da altrettante categorie di strumenti, all’interrogazione di un DW da parte degli utenti fnali: – OLAP: richiede all’utente di ragionare in modo multidimensionale e di conoscere l’interfaccia dello strumento grafco utilizzato – reportistica/dashboarding: non richiede conoscenze informatiche – data mining: richiede una conoscenza specifca e tecnica (consulente) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 33
  • 34. strumenti: OLAP (On-Line Analytical Processing) Analisi dei dati in tempo reale mediante interfacce user friendly Dati organizzati in base al modello multidimensionale: i fatti di interesse sono rappresentati in cubi. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 34
  • 35. OLAP: le gerarchie Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 35
  • 36. OLAP: le operazioni sui cubi Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 36
  • 37. OLAP: le operazioni sui cubi Al manager di prodotto interessa la vendita di un prodotto in tutti i periodi e in tutti i mercati Al manager regionale interessa la vendita dei prodotti in tutti i periodi nei propri mercati Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 37
  • 38. OLAP: le operazioni sui cubi Al manager fnanziario interessa la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 38
  • 39. strumenti: REPORTISTICA e DASHBOARDING Possibilità di utilizzare un’unica sorgente dati integrata e consistente per realizzare la reportistica/dashboarding Report sempre aggiornati Possibilità di costruire una “visione d’insieme” in tempo reale Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 39
  • 40. strumenti: DATA MINING Ofrono possibilità di analisi “superiori” e complementari rispetto a quelle ottenibili tramite i sistemi OLAP Richiedono la presenza di “esperti” per scegliere/impostare/tarare/interpretare gli algoritmi impiegati Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 40
  • 41. PENTAHO BI Suite Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 41
  • 42. PENTAHO Pentaho è un software open source commerciale per la Business Intelligence Pentaho sviluppato a partire dal 2004 Pentaho comprende: reporting, OLAP analysis, dashboards, data integration (ETL), data mining e una piattaforma di BI. Software Open Source Ha una community per il supporto degli utenti Multipiattaforma (Windows, Linux, Macintosh, Solaris, Unix,...) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 42
  • 43. modello di sviluppo Beekeeper James Dixon, Pentaho Chief Technology Ofcer le api sono libere di andarsene: l'apicoltore deve creare un ambiente bello e confortevole i clienti non hanno niente a che fare con le api, vogliono solo il loro miele la crescita dell'allevamento dipende da quanto miele/cera viene venduto, questo dipende in parte dalle capacità del venditore e in parte dalla quantità di miele disponibile la quantità di miele dipende dal numero di api e questo dipende da quanto miele/cera viene lasciato alle api Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 43
  • 44. software proprietario e software open source Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 44
  • 45. software commerciale open source rispecchia il modello dell'apicoltore include il modello proprietario e quello open i clienti sono le aziende Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 45
  • 46. PENTAHO architettura La Suite PENTAHO – BI Platform – Pentaho Dashboard – Report Designer – Mondrian (OLAP) – Kettle (ETL) – Weka (Data Mining) Tutto sviluppato su piattaforma JAVA. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 46
  • 47. PENTAHO Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 47
  • 48. PENTAHO Dashboard Il servizio Dashboard di PENTAHO fornisce, all'utente business, le informazioni cruciali per migliorare le performance aziendali Consente di avere un'immediata visione di insieme dei diversi aspetti aziendali attraverso la visualizzazione accattivante di metriche personalizzate Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 48
  • 49. PENTAHO Reporting Consente l'accesso semplice, la formattazione e la divulgazione delle informazioni. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 49
  • 50. PENTAHO Mondrian Server Open Source OLAP L'interfaccia web è JPivot Esplorazione interattiva (slice- and-dice, drill-down) delle informazioni senza la necessità di conoscere linguaggi di query Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 50
  • 51. PENTAHO Kettle Consente l'accesso, la pulizia e l'integrazione dei dati aziendali Operazioni di estrazione, trasformazione e caricamento dei dati, attraverso un ambiente di progettazione grafco. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 51
  • 52. PENTAHO Weka ... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 52
  • 53. PENTAHO e oltre... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 53
  • 54. GRAZIE PER L'ATTENZIONE www.i-ware.it Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 54