SlideShare ist ein Scribd-Unternehmen logo
1 von 11
http://sg.com.mx/dataday #datadaymx
Pentaho Data Integration
El ataque del Data Science Pack
Alexandra Lemus
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Presentación: VinkOS y Pentaho
● VinkOS
Somos una firma dedicada a la integración de tecnologías diversas y desarrollo
de soluciones dentro del ámbito de la Inteligencia de Negocios y el Big Data.
Trabajamos con tecnologías código abierto empresarial: Pentaho, Cloudera e
Infobright.
● Pentaho
Pentaho es una suite Open Source de que incluye los módulos de integración,
reportes, análisis multidimensional, big data y minería de datos.
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Contenido
● El camino del científico de datos
● Pentaho Data Integration
● Pentaho Data Science Pack
● Demo
● Conclusiones
● Preguntas
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Pentaho Data Integration es una plataforma de código abierto para
procesos ETL
Interfaz gráfica
amigable e intuitiva
con funcionalidad
drag & drop
Integración, mezcla
y manipulación de
datos
Más de 250
opciones
funcionales
Administración de
contenidos y
usuarios,
repositorios
compartidos,
control de versiones
… que permite diseñar soluciones para gestión de
la información (data lake, data warehouse, data
mart). Facilita la colaboración entre equipos y
fomenta un buen gobierno de los datos.
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
El camino del científico de datos 1.
Problema
2.
Datos
3.
Preparación de
los datos
4.
Modelo
5.
Distribución
… no es trivial.
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
El Data Science Pack de Pentaho es un conjunto de
herramientas para ciencia de datos integradas al
Pentaho Data Integration
● WEKA (Pentaho Data Mining) es un
software libre que reúne diversos
algoritmos de aprendizaje de máquina.
● Los conectores de Weka disponibles para
Pentaho son:
— Weka Forecasting
— Weka Scoring
● http://www.cs.waikato.ac.nz/ml/weka/
● R es un lenguaje y ecosistema de software
libre para realizar cómputo estadístico y
gráficos.
● Pentaho cuenta con un conector para
ejecutar scripts de R.
● https://www.r-project.org/
… que cuenta con conectores nativos para
WEKA y R.
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Existen otros componentes para ciencia de datos
dentro de Pentaho Data Integration
… si bien, no son oficialmente parte del Data
Science Pack, facilitan la ciencia de datos y el
análisis de big data.
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Pentaho junto con el Data Science Pack abordan un ciclo
de trabajo para un científico de datos
… Su funcionalidad permite coordinar y automatizar
el proceso de acceso, preparación y manipulación
datos, así como el de entrenamiento, evaluación,
distribución y actualización de un modelo predictivo.
Acceder a,
preparar y
manipular
los datos
Entrenar,
y evaluar
el modelo
Distribuir
y automatizar
el modelo
Actualizar
el modelo
1 2 3 4
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
DEMO: Pronóstico de fraude
1.
Problema
5.
Distribución
2.
Datos
3.
Preparación
de los datos
4.
Modelo
¿Son fraudulentas las
transacciones de venta
o no?
Cuatro fuentes distintas de datos:
Base de datos mySQL
Archivos CSV
Utilizaremos
PDI para mostrar procesos
ETL
Modelos de clasificación
en WEKA, R y Python Automatización
de la operación de
Scoring
Pasemos entonces al Demo...
© 2012, Pentaho. All Rights Reserved. www.pentaho.com.
Conclusiones
● Pentaho suaviza y facilita el camino.
● El científico de datos puede estar en todos lados al
mismo tiempo.
● Integración eficiente de procesos y equipos
multidisciplinarios.
● ¡Es código abierto!
¿Preguntas?
alexandra.lemus@vinkos.com
@nankyoku

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública
 
¿Innovación en el gobierno?
¿Innovación en el gobierno?¿Innovación en el gobierno?
¿Innovación en el gobierno?
 
Emprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AIEmprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AI
 
¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?
 
Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral
 
Lo que Piensan los Ahorradores Mexicanos
 Lo que Piensan los Ahorradores Mexicanos  Lo que Piensan los Ahorradores Mexicanos
Lo que Piensan los Ahorradores Mexicanos
 
Conservando empleos analíticos en México
Conservando empleos analíticos en México Conservando empleos analíticos en México
Conservando empleos analíticos en México
 
Diseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big DataDiseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big Data
 
Estadística Bayesiana y Programación Probabilística
Estadística Bayesiana y Programación ProbabilísticaEstadística Bayesiana y Programación Probabilística
Estadística Bayesiana y Programación Probabilística
 
Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales
 
Machine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido EditorialMachine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido Editorial
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web Servic
 
Rapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datosRapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datos
 
Un Producto Predictivo de la A a la Z
Un Producto Predictivo de la A a la Z Un Producto Predictivo de la A a la Z
Un Producto Predictivo de la A a la Z
 
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMXModelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
 
Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño
 
Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25
 
Data Day - Procuracion de justicia
Data Day  - Procuracion de justiciaData Day  - Procuracion de justicia
Data Day - Procuracion de justicia
 
JVM Reactive Programming
JVM Reactive ProgrammingJVM Reactive Programming
JVM Reactive Programming
 
Mexican Landscape of DS & AI
Mexican Landscape of DS & AIMexican Landscape of DS & AI
Mexican Landscape of DS & AI
 

Ähnlich wie Pentaho Data Integration: El ataque del Data Science

CV_Ricardo_Bouyer 2014
CV_Ricardo_Bouyer 2014CV_Ricardo_Bouyer 2014
CV_Ricardo_Bouyer 2014
Ricardo Bouyer
 

Ähnlich wie Pentaho Data Integration: El ataque del Data Science (20)

Electiva
ElectivaElectiva
Electiva
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
 
ETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.pptETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.ppt
 
Departamento Arquitectura Resumen 2009
Departamento Arquitectura Resumen 2009Departamento Arquitectura Resumen 2009
Departamento Arquitectura Resumen 2009
 
Redcom presentacion duet webcast
Redcom presentacion duet webcastRedcom presentacion duet webcast
Redcom presentacion duet webcast
 
OpenExpo Business Intelligence Open Source
OpenExpo Business Intelligence Open SourceOpenExpo Business Intelligence Open Source
OpenExpo Business Intelligence Open Source
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Presentacion Xcode - Casos Exito y Productos
Presentacion Xcode - Casos Exito y ProductosPresentacion Xcode - Casos Exito y Productos
Presentacion Xcode - Casos Exito y Productos
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Sesion 1 pentaho special-edition 2013
Sesion 1  pentaho special-edition 2013Sesion 1  pentaho special-edition 2013
Sesion 1 pentaho special-edition 2013
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big Data
 
Oracle Data Integrator 12c
Oracle Data Integrator 12cOracle Data Integrator 12c
Oracle Data Integrator 12c
 
SCRIPT R Y PYTHON EN POWER BI
SCRIPT R Y PYTHON EN POWER BISCRIPT R Y PYTHON EN POWER BI
SCRIPT R Y PYTHON EN POWER BI
 
CV_Ricardo_Bouyer 2014
CV_Ricardo_Bouyer 2014CV_Ricardo_Bouyer 2014
CV_Ricardo_Bouyer 2014
 
Redmine - Gestión de Portafolio de Proyectos
Redmine - Gestión de Portafolio de ProyectosRedmine - Gestión de Portafolio de Proyectos
Redmine - Gestión de Portafolio de Proyectos
 
Diferentes software gep
Diferentes software gepDiferentes software gep
Diferentes software gep
 
Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)
 
Diapositiva software educativo
Diapositiva software educativoDiapositiva software educativo
Diapositiva software educativo
 

Mehr von Software Guru

Mehr von Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Kürzlich hochgeladen

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
silviayucra2
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Kürzlich hochgeladen (10)

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Pentaho Data Integration: El ataque del Data Science

  • 1. http://sg.com.mx/dataday #datadaymx Pentaho Data Integration El ataque del Data Science Pack Alexandra Lemus
  • 2. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Presentación: VinkOS y Pentaho ● VinkOS Somos una firma dedicada a la integración de tecnologías diversas y desarrollo de soluciones dentro del ámbito de la Inteligencia de Negocios y el Big Data. Trabajamos con tecnologías código abierto empresarial: Pentaho, Cloudera e Infobright. ● Pentaho Pentaho es una suite Open Source de que incluye los módulos de integración, reportes, análisis multidimensional, big data y minería de datos.
  • 3. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Contenido ● El camino del científico de datos ● Pentaho Data Integration ● Pentaho Data Science Pack ● Demo ● Conclusiones ● Preguntas
  • 4. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Pentaho Data Integration es una plataforma de código abierto para procesos ETL Interfaz gráfica amigable e intuitiva con funcionalidad drag & drop Integración, mezcla y manipulación de datos Más de 250 opciones funcionales Administración de contenidos y usuarios, repositorios compartidos, control de versiones … que permite diseñar soluciones para gestión de la información (data lake, data warehouse, data mart). Facilita la colaboración entre equipos y fomenta un buen gobierno de los datos.
  • 5. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. El camino del científico de datos 1. Problema 2. Datos 3. Preparación de los datos 4. Modelo 5. Distribución … no es trivial.
  • 6. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. El Data Science Pack de Pentaho es un conjunto de herramientas para ciencia de datos integradas al Pentaho Data Integration ● WEKA (Pentaho Data Mining) es un software libre que reúne diversos algoritmos de aprendizaje de máquina. ● Los conectores de Weka disponibles para Pentaho son: — Weka Forecasting — Weka Scoring ● http://www.cs.waikato.ac.nz/ml/weka/ ● R es un lenguaje y ecosistema de software libre para realizar cómputo estadístico y gráficos. ● Pentaho cuenta con un conector para ejecutar scripts de R. ● https://www.r-project.org/ … que cuenta con conectores nativos para WEKA y R.
  • 7. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Existen otros componentes para ciencia de datos dentro de Pentaho Data Integration … si bien, no son oficialmente parte del Data Science Pack, facilitan la ciencia de datos y el análisis de big data.
  • 8. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Pentaho junto con el Data Science Pack abordan un ciclo de trabajo para un científico de datos … Su funcionalidad permite coordinar y automatizar el proceso de acceso, preparación y manipulación datos, así como el de entrenamiento, evaluación, distribución y actualización de un modelo predictivo. Acceder a, preparar y manipular los datos Entrenar, y evaluar el modelo Distribuir y automatizar el modelo Actualizar el modelo 1 2 3 4
  • 9. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. DEMO: Pronóstico de fraude 1. Problema 5. Distribución 2. Datos 3. Preparación de los datos 4. Modelo ¿Son fraudulentas las transacciones de venta o no? Cuatro fuentes distintas de datos: Base de datos mySQL Archivos CSV Utilizaremos PDI para mostrar procesos ETL Modelos de clasificación en WEKA, R y Python Automatización de la operación de Scoring Pasemos entonces al Demo...
  • 10. © 2012, Pentaho. All Rights Reserved. www.pentaho.com. Conclusiones ● Pentaho suaviza y facilita el camino. ● El científico de datos puede estar en todos lados al mismo tiempo. ● Integración eficiente de procesos y equipos multidisciplinarios. ● ¡Es código abierto!