1. Strumenti Open Source per
Data Mining e Business intelligence
Giacomo Gamberoni e Denis Ferraretti
IntelliWARE, Ferrara
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 1
2. Sommario
Data Mining
– Cos'è il Data Mining
– Esempi e dataset
– Tecniche
– WEKA
– Altri progetti
Business Intelligence
– Scenario tipico
– Dai dati alle decisioni
– Architettura BI
– Pentaho
– Beekeper
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 2
3. Cos'è il Data Mining
The non-trivial process of identifying
– Valid
– Novel
– potentially useful, and
– ultimately understandable patterns in data.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 3
4. Esempi di problemi
Distinguere mail/spam
Riconoscimento numeri scritti a mano
Valutazione usato auto
Distinguere categorie di geni (fori)
Analisi sondaggi elettorali
Analisi scontrini della spesa
Previsione abbandono clienti
Segmentazione visitatori
Valutazione afdabilità credito
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 4
5. UCI Machine Learning Repository
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 5
6. UCI Machine Learning Repository
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 6
7. Esempi di dataset
Market Basket
Customer 1: beer, pretzels, potato chips, aspirin
Customer 2: diapers, baby lotion, grapefruit juice,
baby food, milk
Customer 3: soda, potato chips, milk
Customer 4: soup, beer, milk, ice cream
Customer 5: soda, cofee, milk, bread
Customer 6: beer, potato chips
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 7
8. Tecniche di Data Mining
Pseudo-tecnica
Alberi decisionali
Regole associative
Clustering
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 8
9. Pseudo problema
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 9
10. Pseudo soluzione
IF salary<k then not repaid
k
Approccio predittivo/descrittivo
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 10
11. Alberi decisionali
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 11
12. Valutazione della classifcazione
Si divide il dataset in due parti
– Training set (per esempio 90% delle istanze)
– Test set (per esempio 10% delle istanze)
Si usa il training set per apprendere l'albero e si testa il
risultato usando le istanze del test set
Si compila la matrice di confusione
Esiste anche la 10-fold Cross Validation
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 12
13. Clustering
Raggruppare gli elementi con caratteristiche simili
Attributi numerici
Non supervisionato (non c'è una classe defnita prima)
Algoritmi
– K-means
– Hierarchical
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 13
14. Regole Associative
Scontrino Prodotti Scontrino Latte Pane Burro Birra
1 Latte, pane 1 1 1
2 Pane, burro 2 1 1
3 Birra 3 1
4 Latte, pane, burro 4 1 1 1
5 Pane 5 1
Si basa sul concetto di itemset (insieme di prodotti)
– Supporto (frequenza in percentuale)
Regole tipo: x,y → z
– Confdenza = supp(x,y,z)/supp(x,y)
Possibili regole trovate:
– Latte → Pane (supporto 40%, confdenza 100%)
– Latte, pane → Burro (supporto 40%, confdenza 50%)
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 14
15. WEKA: il software
Waikato Environment for Knowledge Analysis
Collezione di algoritmi allo stato dell'arte per Data Mining, implementato
in Java
– Rilasciato sotto licenza GPL
Supporto per l'intero processo di Data Mining sperimentale
– Preparazione dei dati di input
– Valutazione Statistica dei modelli appresi
– Visualizzazione degli input e dei risultati
Usato per la didattica, la ricerca e le applicazioni
Complemento di “Data Mining” di Witten & Frank
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 15
16. Main Features
49 strumenti di preprocessing
76 algoritmi di classifcazione/regressione
8 algoritmi di clustering
3 algoritmi per le regole associative
15 attribute/subset evaluators
+ 10 algoritmi di ricerca per feature selection
3 interfacce grafche
– “The Explorer” (exploratory data analysis)
– “The Experimenter” (experimental environment)
– “The KnowledgeFlow” (new process model inspired interface)
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 16
17. C'era una volta...
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 17
18. Oggi:
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 18
19. Classifcatori
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 19
20. Alberi Decisionali
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 20
21. Knowledge fow
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 21
22. Experimenter
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 22
23. Progetti che sfruttano WEKA
Rapid Miner (suite)
Gate (NLP)
GRB Tool Shed
Judge (Docs)
Pentaho
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 23
24. Bibliografa Data Mining
Data mining
– Data Mining: Practical Machine Learning Tools and Techniques (2ed), Ian H. Witten, Eibe Frank,
Morgan Kaufmann, 2005
– Machine Learning, Tom Mitchell, McGraw Hill, 1997.
– http://www.kdnuggets.com/
– http://www.cs.waikato.ac.nz/ml/weka/
Algoritmi
– Quinlan, J. R. 1986 “Induction of Decision Trees” Mach. Learn. 1, 1 (Mar. 1986), 81-106.
– Agrawal R, Imielinski T, Swami AN "Mining Association Rules between Sets of Items in Large
Databases." SIGMOD. June 1993, 22(2):207-16
– MacQueen, J. B. 1967 "Some Methods for classifcation and Analysis of Multivariate
Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and
Probability, Berkeley, University of California Press, 1:281-297
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 24
25. uno scenario tipico...
...è quello di una grande azienda, con numerose fliali, i cui
dirigenti desiderano quantifcare e valutare il contributo dato
da ciascuna di esse al rendimento commerciale globale
dell’impresa.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 25
26. uno scenario tipico...
...è quello di una grande azienda, con numerose fliali, i cui
dirigenti desiderano quantifcare e valutare il contributo dato
da ciascuna di esse al rendimento commerciale globale
dell’impresa.
la business intelligence è
un insieme di strumenti
e procedure
che consentono a un'azienda
di trasformare
i propri dati di business
in informazioni utili
al processo decisionale,
da rendere disponibili
alla persona giusta e
nel formato idoneo
BUSINESS INTELLIGENCE
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 26
27. dai dati alle informazioni
l'informazione è un bene a valore
crescente, necessario per pianifcare
e controllare le attività aziendali con
efcacia
costituisce la materia prima che viene trasformata dai sistemi
informativi, come i semilavorati vengono trasformati dai
sistemi di produzione
DATI = INFORMAZIONI
la disponibilità di troppi dati rende difcile estrapolare le
informazioni veramente importanti
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 27
28. la piramide della BI
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 28
29. la piattaforma di BI
Si parla di piattaforma di BI poiché per consentire ai manager
analisi potenti e fessibili è necessario defnire un’apposita
infrastruttura hardware e software di supporto composta da:
● Hardware dedicato
● Infrastrutture di rete
● DBMS
● Software di back-end
● Software di front-end
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 29
30. architettura di BI
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 30
31. le domande
“Che incassi sono stati registrati l’anno passato per ciascuna
regione e ciascuna categoria di prodotto?”
“Che correlazione esiste tra l’andamento dei titoli azionari dei
produttori di PC e i proftti trimestrali lungo gli ultimi 5 anni?”
“Quali sono gli ordini che massimizzano gli incassi?”
“Quale di due nuove terapie risulterà in una diminuzione della
durata media di un ricovero?”
“Che rapporto c’è tra i proftti realizzati con spedizioni di meno
di 10 elementi e quelli realizzati con spedizioni di più di 10
elementi?”
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 31
32. esempio di aree di utilità
Commercio
– analisi delle vendite e dei reclami, controllo di spedizioni e
inventari, cura del rapporto con i clienti
Manifattura
– controllo dei costi di produzione, supporto fornitori e ordini
Servizi fnanziari
– analisi del rischio e delle carte di credito, rivelazione di frodi
Trasporti
– gestione parco mezzi
Telecomunicazioni
– analisi del fusso delle chiamate e del proflo dei clienti
Sanità
– analisi di ricoveri e dimissioni, contabilità per centri di costo
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 32
33. tecniche di analisi dei dati
Una volta che i dati sono stati ripuliti, integrati e trasformati,
occorre capire come trarne il massimo vantaggio informativo
Esistono in sostanza tre approcci diferenti, supportati da
altrettante categorie di strumenti, all’interrogazione di un DW
da parte degli utenti fnali:
– OLAP: richiede all’utente di ragionare in modo
multidimensionale e di conoscere l’interfaccia dello strumento
grafco utilizzato
– reportistica/dashboarding: non richiede conoscenze
informatiche
– data mining: richiede una conoscenza specifca e tecnica
(consulente)
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 33
34. strumenti: OLAP (On-Line Analytical Processing)
Analisi dei dati in tempo reale mediante interfacce user friendly
Dati organizzati in base al modello multidimensionale: i fatti di
interesse sono rappresentati in cubi.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 34
35. OLAP: le gerarchie
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 35
36. OLAP: le operazioni sui cubi
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 36
37. OLAP: le operazioni sui cubi
Al manager di prodotto
interessa la vendita di un
prodotto in tutti i periodi e
in tutti i mercati
Al manager regionale
interessa la vendita dei
prodotti in tutti i periodi nei
propri mercati
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 37
38. OLAP: le operazioni sui cubi
Al manager fnanziario
interessa la vendita dei
prodotti in tutti i mercati
relativamente al periodo
corrente e quello
precedente
Il manager strategico si
concentra su una categoria
di prodotti, una area
regionale e un orizzonte
temporale medio
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 38
39. strumenti: REPORTISTICA e DASHBOARDING
Possibilità di utilizzare un’unica sorgente dati integrata e
consistente per realizzare la reportistica/dashboarding
Report sempre aggiornati
Possibilità di costruire una “visione d’insieme” in tempo reale
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 39
40. strumenti: DATA MINING
Ofrono possibilità di analisi “superiori” e complementari
rispetto a quelle ottenibili tramite i sistemi OLAP
Richiedono la presenza di “esperti” per
scegliere/impostare/tarare/interpretare gli algoritmi impiegati
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 40
41. PENTAHO BI Suite
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 41
42. PENTAHO
Pentaho è un software open source commerciale per la
Business Intelligence
Pentaho sviluppato a partire dal 2004
Pentaho comprende: reporting, OLAP analysis, dashboards,
data integration (ETL), data mining e una piattaforma di BI.
Software Open Source
Ha una community per il supporto degli utenti
Multipiattaforma (Windows, Linux, Macintosh, Solaris, Unix,...)
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 42
43. modello di sviluppo Beekeeper
James Dixon, Pentaho Chief Technology Ofcer
le api sono libere di andarsene: l'apicoltore deve creare un ambiente
bello e confortevole
i clienti non hanno niente a che fare con le api, vogliono solo il loro miele
la crescita dell'allevamento dipende da quanto miele/cera viene venduto,
questo dipende in parte dalle capacità del venditore e in parte dalla
quantità di miele disponibile
la quantità di miele dipende dal numero di api e questo dipende da
quanto miele/cera viene lasciato alle api
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 43
44. software proprietario e software open source
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 44
45. software commerciale open source
rispecchia il modello dell'apicoltore
include il modello proprietario e quello open
i clienti sono le aziende
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 45
46. PENTAHO architettura
La Suite PENTAHO
– BI Platform
– Pentaho Dashboard
– Report Designer
– Mondrian (OLAP)
– Kettle (ETL)
– Weka (Data Mining)
Tutto sviluppato su
piattaforma JAVA.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 46
47. PENTAHO
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 47
48. PENTAHO Dashboard
Il servizio Dashboard di PENTAHO fornisce, all'utente business,
le informazioni cruciali per migliorare le performance aziendali
Consente di avere un'immediata visione di insieme dei diversi
aspetti aziendali attraverso la visualizzazione accattivante di
metriche personalizzate
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 48
49. PENTAHO Reporting
Consente l'accesso semplice, la formattazione e la
divulgazione delle informazioni.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 49
50. PENTAHO Mondrian
Server Open Source OLAP
L'interfaccia web è JPivot
Esplorazione interattiva (slice-
and-dice, drill-down) delle
informazioni senza la necessità
di conoscere linguaggi di query
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 50
51. PENTAHO Kettle
Consente l'accesso, la pulizia e l'integrazione dei dati aziendali
Operazioni di estrazione, trasformazione e caricamento dei
dati, attraverso un ambiente di progettazione grafco.
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 51
52. PENTAHO Weka
...
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 52
53. PENTAHO e oltre...
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 53
54. GRAZIE PER L'ATTENZIONE
www.i-ware.it
Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it
Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 54