Weitere ähnliche Inhalte Ähnlich wie Pentaho Data Integration: El ataque del Data Science (20) Mehr von Software Guru (20) Kürzlich hochgeladen (10) Pentaho Data Integration: El ataque del Data Science 2. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Presentación: VinkOS y Pentaho
● VinkOS
Somos una firma dedicada a la integración de tecnologías diversas y desarrollo
de soluciones dentro del ámbito de la Inteligencia de Negocios y el Big Data.
Trabajamos con tecnologías código abierto empresarial: Pentaho, Cloudera e
Infobright.
● Pentaho
Pentaho es una suite Open Source de que incluye los módulos de integración,
reportes, análisis multidimensional, big data y minería de datos.
3. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Contenido
● El camino del científico de datos
● Pentaho Data Integration
● Pentaho Data Science Pack
● Demo
● Conclusiones
● Preguntas
4. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Pentaho Data Integration es una plataforma de código abierto para
procesos ETL
Interfaz gráfica
amigable e intuitiva
con funcionalidad
drag & drop
Integración, mezcla
y manipulación de
datos
Más de 250
opciones
funcionales
Administración de
contenidos y
usuarios,
repositorios
compartidos,
control de versiones
… que permite diseñar soluciones para gestión de
la información (data lake, data warehouse, data
mart). Facilita la colaboración entre equipos y
fomenta un buen gobierno de los datos.
5. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
El camino del científico de datos 1.
Problema
2.
Datos
3.
Preparación de
los datos
4.
Modelo
5.
Distribución
… no es trivial.
6. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
El Data Science Pack de Pentaho es un conjunto de
herramientas para ciencia de datos integradas al
Pentaho Data Integration
● WEKA (Pentaho Data Mining) es un
software libre que reúne diversos
algoritmos de aprendizaje de máquina.
● Los conectores de Weka disponibles para
Pentaho son:
— Weka Forecasting
— Weka Scoring
● http://www.cs.waikato.ac.nz/ml/weka/
● R es un lenguaje y ecosistema de software
libre para realizar cómputo estadístico y
gráficos.
● Pentaho cuenta con un conector para
ejecutar scripts de R.
● https://www.r-project.org/
… que cuenta con conectores nativos para
WEKA y R.
7. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Existen otros componentes para ciencia de datos
dentro de Pentaho Data Integration
… si bien, no son oficialmente parte del Data
Science Pack, facilitan la ciencia de datos y el
análisis de big data.
8. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Pentaho junto con el Data Science Pack abordan un ciclo
de trabajo para un científico de datos
… Su funcionalidad permite coordinar y automatizar
el proceso de acceso, preparación y manipulación
datos, así como el de entrenamiento, evaluación,
distribución y actualización de un modelo predictivo.
Acceder a,
preparar y
manipular
los datos
Entrenar,
y evaluar
el modelo
Distribuir
y automatizar
el modelo
Actualizar
el modelo
1 2 3 4
9. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
DEMO: Pronóstico de fraude
1.
Problema
5.
Distribución
2.
Datos
3.
Preparación
de los datos
4.
Modelo
¿Son fraudulentas las
transacciones de venta
o no?
Cuatro fuentes distintas de datos:
Base de datos mySQL
Archivos CSV
Utilizaremos
PDI para mostrar procesos
ETL
Modelos de clasificación
en WEKA, R y Python Automatización
de la operación de
Scoring
Pasemos entonces al Demo...
10. © 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Conclusiones
● Pentaho suaviza y facilita el camino.
● El científico de datos puede estar en todos lados al
mismo tiempo.
● Integración eficiente de procesos y equipos
multidisciplinarios.
● ¡Es código abierto!