SlideShare una empresa de Scribd logo
1 de 27
Técnicas de Inyección / Extracción de Datos en #BigData 
+ 
Técnicas Drag & Drop en Apache Cassandra 
@javituiter 
www.franciscojavierpulido.com 
@exploradata 
www.exploradata.com
Sobre mí 
Graduado en 
Ingeniera del 
Software 
Master en 
Sistemas en 
Ingeniería de la 
Información 
Big Data Specialist 
www.ExploraData.com 
Bloguero 
& 
Tuitero
ExploraBrand: Marketing Digital 
www.explorabrand.com
Inyección/Extracción 
de Datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección/Extracción 
de Datos 
en Cassandra
Inyección / Extración de datos en Cassandra 
Comando COPY
Inyección / Extración de datos en Cassandra 
Comando COPY 
- Desarrollar desde 0 un programa para lanzar múltiples 
instancias del comando (secuencialmente, ya que 
paralelamente estaba sujeto a errores de 
concurrencia) 
- Paralelizable en varios nodos manualmente 
- Limitado a 500.000 registros por hilo/lanzamiento
Inyección / Extración de datos en Cassandra 
Apache Sqoop 
· Relacional 
· NoSQL 
· Relacional 
· NoSQL 
Hadoop
Inyección / Extración de datos en Cassandra 
Apache Flume 
- Herramienta exclusiva para la etapa de 
Obtención de datos 
- Source 
- Channel 
- Sink 
- Interceptor
Inyección / Extración de datos en Cassandra 
Apache Flume 
Channel 1 
Channel N 
Source 1 
. 
. 
. 
. 
. 
. 
Source 2 
Sink 1 
Sink 2
Inyección / Extración de datos en Cassandra 
Apache Flume
Inyección / Extración de datos en Cassandra 
Apache Flume 
+ Sink a Cassandra 
Personalizado 
http 
://www.treselle.com/blog/flume-with-cassandra-integration
Inyección / Extración de datos en Cassandra 
DataStax: SSTableLoader
Técnicas Drag&Drop 
en Cassandra
Técnicas Drag&Drop en Cassandra 
ETL 
• Extraer, Transformar y Cargar (Load). En definitiva: 
• Extraer datos de múltiples fuentes 
• Aplicar calidad y consistencia (limpiar) a los datos 
• Conformar (unificar) los datos 
• Cargar los datos en un DW 
• La idea de Flujo. 
• Actividad inicial y con ejecución periódica/programable. 
• Herramientas: Talend, JasperSoft, Pentaho Data Integration
Técnicas Drag&Drop en Cassandra 
Pentaho Data Integration 
• PDI es un set de herramientas, que permite diseñar ETLs, mediante 
transformaciones y trabajos que pueden ser ejecutadas por las herramientas 
de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. 
• Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. 
• Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, 
manipular y escribir desde y en distintos orígenes de datos. 
• Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos 
trabajos son planificados en modo batch para ejecutar automáticamente a periodos 
regulares (crontab -e).
Técnicas Drag&Drop en Cassandra
Técnicas Drag&Drop en Cassandra 
Conectores Big Data en PDI 
• En PDI tenemos múltiples conectores para sistemas Big Data: 
• AVRO 
• Cassandra 
• CouchDB 
• Hadoop 
• Hbase 
• Map Reduce 
• MongoDB
Técnicas Drag&Drop en Cassandra 
Cassandra en PDI 
• Tenemos tres tipos de “pasos” para Apache Cassandra: 
• Cassandra Input: se utiliza para realizar lecturas 
• Cassandra Output: se utiliza para realizar escrituras 
• SSTable Output: se utiliza para volcar a una SSTable de Cassandra. 
• Requisitos: 
• Apache Cassandra 1.2.X 
• PDI 5.0.1 Stable 
• Librerías oficiales de Apache Cassandra para PDI 
• Limitaciones: 
• Los “pasos” funcionan correctamente con hasta 500K registros
Técnicas Drag&Drop en Cassandra 
Cassandra Input
Técnicas Drag&Drop en Cassandra 
Cassandra Output
Técnicas Drag&Drop en Cassandra 
SSTable Output 
* Este paso necesita ser ejecutado siempre en un nodo de Cassandra.
PDI en Acción
? 
¿ Dudas ? 
@javituiter 
www.franciscojavierpulido.com 
@exploradata 
www.exploradata.com

Más contenido relacionado

Similar a Tecnicas Big Data: Meetup Cassandra

Presentación omega peripherals
Presentación omega peripheralsPresentación omega peripherals
Presentación omega peripherals
Omega Peripherals
 

Similar a Tecnicas Big Data: Meetup Cassandra (20)

Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big data
 
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Presentación omega peripherals
Presentación omega peripheralsPresentación omega peripherals
Presentación omega peripherals
 
Polybase
PolybasePolybase
Polybase
 
Cloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la NubeCloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la Nube
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Arquitectura Lambda
Arquitectura LambdaArquitectura Lambda
Arquitectura Lambda
 

Más de Stratebi

Más de Stratebi (20)

Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integration
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y Cursos
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 

Último

REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
andreadiaz555157
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
JoselynGoeTmara
 

Último (20)

4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 

Tecnicas Big Data: Meetup Cassandra

  • 1. Técnicas de Inyección / Extracción de Datos en #BigData + Técnicas Drag & Drop en Apache Cassandra @javituiter www.franciscojavierpulido.com @exploradata www.exploradata.com
  • 2. Sobre mí Graduado en Ingeniera del Software Master en Sistemas en Ingeniería de la Información Big Data Specialist www.ExploraData.com Bloguero & Tuitero
  • 3. ExploraBrand: Marketing Digital www.explorabrand.com
  • 5. Inyección / Extracción de datos en #BigData
  • 6. Inyección / Extracción de datos en #BigData
  • 7. Inyección / Extracción de datos en #BigData
  • 9. Inyección / Extración de datos en Cassandra Comando COPY
  • 10. Inyección / Extración de datos en Cassandra Comando COPY - Desarrollar desde 0 un programa para lanzar múltiples instancias del comando (secuencialmente, ya que paralelamente estaba sujeto a errores de concurrencia) - Paralelizable en varios nodos manualmente - Limitado a 500.000 registros por hilo/lanzamiento
  • 11. Inyección / Extración de datos en Cassandra Apache Sqoop · Relacional · NoSQL · Relacional · NoSQL Hadoop
  • 12. Inyección / Extración de datos en Cassandra Apache Flume - Herramienta exclusiva para la etapa de Obtención de datos - Source - Channel - Sink - Interceptor
  • 13. Inyección / Extración de datos en Cassandra Apache Flume Channel 1 Channel N Source 1 . . . . . . Source 2 Sink 1 Sink 2
  • 14. Inyección / Extración de datos en Cassandra Apache Flume
  • 15. Inyección / Extración de datos en Cassandra Apache Flume + Sink a Cassandra Personalizado http ://www.treselle.com/blog/flume-with-cassandra-integration
  • 16. Inyección / Extración de datos en Cassandra DataStax: SSTableLoader
  • 18. Técnicas Drag&Drop en Cassandra ETL • Extraer, Transformar y Cargar (Load). En definitiva: • Extraer datos de múltiples fuentes • Aplicar calidad y consistencia (limpiar) a los datos • Conformar (unificar) los datos • Cargar los datos en un DW • La idea de Flujo. • Actividad inicial y con ejecución periódica/programable. • Herramientas: Talend, JasperSoft, Pentaho Data Integration
  • 19. Técnicas Drag&Drop en Cassandra Pentaho Data Integration • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. • Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. • Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. • Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 21. Técnicas Drag&Drop en Cassandra Conectores Big Data en PDI • En PDI tenemos múltiples conectores para sistemas Big Data: • AVRO • Cassandra • CouchDB • Hadoop • Hbase • Map Reduce • MongoDB
  • 22. Técnicas Drag&Drop en Cassandra Cassandra en PDI • Tenemos tres tipos de “pasos” para Apache Cassandra: • Cassandra Input: se utiliza para realizar lecturas • Cassandra Output: se utiliza para realizar escrituras • SSTable Output: se utiliza para volcar a una SSTable de Cassandra. • Requisitos: • Apache Cassandra 1.2.X • PDI 5.0.1 Stable • Librerías oficiales de Apache Cassandra para PDI • Limitaciones: • Los “pasos” funcionan correctamente con hasta 500K registros
  • 23. Técnicas Drag&Drop en Cassandra Cassandra Input
  • 24. Técnicas Drag&Drop en Cassandra Cassandra Output
  • 25. Técnicas Drag&Drop en Cassandra SSTable Output * Este paso necesita ser ejecutado siempre en un nodo de Cassandra.
  • 27. ? ¿ Dudas ? @javituiter www.franciscojavierpulido.com @exploradata www.exploradata.com