What is Java's role in the Data Science market? Why consider solutions based on Java (and other JVM frameworks) for Data Analytics? And what solutions are available?
During this Java Developers' Meeting Datatellers will pay attention to these questions, presenting the software H2O.ai and KNIME, two Open Source platforms that in recent years are seeing a wide use especially in the analysis of big data. Attention will also be given to the synergy of the two tools, in the generation of advanced and customized Business Intelligence tools.
3. Contenuti
Introduzione
Perché Java per la Data Science?
Perché H2O.ai e KNIME?
Ruolo dei due software
In che fase di progetto
eccellono questi due engine?
Funzionalità
Alcuni riferimenti ad esempi
pratici ed alle performance
Stack di progetto
Trarre vantaggio dal poter
integrare le due tecnologie
5. Perché JAVA?
● Velocità di calcolo (soprattutto in multithread)
● Adattabilità ad altri sistemi preesistenti
● Librerie di Data Science affidabili (WEKA, Java-ML...)
● Scalabilità e manutenibilità
6. Perché H2O.ai e KNIME?
Open-Source (community, bugfixing)
Tra i leader nel settore
Facilità di utilizzo
Predisposizione alla scalabilità
Facilità di integrazione con
numerose altre tecnologie
9. KNIME
Cosa
Piattaforma di Data Analysis,
Predictive Analysis e Modeling
Come
Procedure in un workflow, a loro
volta composte da nodi
Perché
Intuitivo, permette sia al Data
Scientist di testare velocemente
i modelli, che al Business Owner
di visualizzarne i risultati con
facilità. Open Source!
10. H2O.ai
Cosa
Motore avanzato e libreria di
Data Modeling e Machine Learning
Come
Nativamente con Java o Scala, o
tramite API (già accessibile con
librerie per R, Python, etc..)
Perché
Vantaggioso soprattutto
nell’ambito dei Big Data grazie
all’ottimo multithreading. Open
Source!
12. KNIME
Data Access
MySQL, PGSQL, Oracle DB, JSON,
XML, file di testo, immagini…
Big Data
Spark, Hive, Teradata…
Trasformazione dati
Righe, colonne, matrici, testo,
serie temporali, immagini…
13. KNIME
Data Analysis & Mining
Statistica, ML, Data Mining, Web
Analytics… (con H2O.ai, Java,
Scala, R, Python…)
Data Visualization
JS, Python, R…
Deployment
JSON, XML, DBs, Excel, immagini…
14. H2O.ai
SUPERVISED LEARNING
Analisi statistica
Generalized Linear Models
(binomiale, gaussiana, poisson…)
e classificatore Bayesiano
Ensembles
Distributed Random Forest
(regression) e Gradient Boosting
Machine (decision tree)
Deep Neural Networks
Trasformazioni non lineari
multilivello
15. H2O.ai
UNSUPERVISED LEARNING
Clustering
K-Means (con autodetect di k)
Riduzione dimensionale
Principal Component Analysis
(riduzione lineare) e
Generalized Low Rank Models
(estensione della PCA per dati
arbitrari e mancanti)
Rivelazione di anomalie
Autoencoders (deep learning con
riduzione dimensionale non
lineare)