En esta sesión veremos diferentes métodos para cargar datos en un cluster de HDInsight (Hadoop). Veremos como cada método es válido para: datos desde origenes OLTP, datos desde origenes sin estructura y datos a los que se dota estructura para presentarselos a HDInsight. En cada escenario se debe considerar el uso posterior que se le dará al dato para hacerlo de la forma más eficiente. Habrá casos en los que el dato se serializa con librerías .NET y en otros casos el dato se procesará como texto puro
Proyecto integrador. Las TIC en la sociedad S4.pptx
Carga y procesamiento de datos en HDInsight
1. Carga y procesamiento de datos en
HDInsight
@erincon Eladio Rincón
Director Área Relacional
erincon@solidq.com
@yolrod Yolanda Olmedo
DPS
yolmedo@solidq.com
@Daniel_Seara Daniel Seara
Mentor
dseara@solidq.com
2. Agenda
• Almacenamiento en HDInsight
• Carga de datos
• Herramientas para la carga de datos
• Estructurados
• No estructurados
• Especiales
• Transformaciones
• Hive
• Pig
• Map Reduce
• Obteniendo resultados
2
5. • Bibliotecas .Net que facilitan la tarea
• Serialización
• JSON
• AVRO
– Interacción con HDInsight y Azure
Carga de Datos
Herramientas para la carga de Datos
5
7. Escenario
Datos de clima y consumo de cerveza
Analizar grandes
volúmenes de
información
respecto del clima y
su correlación de
consumo,
relacionado con
períodos
estacionales
7
8. • Sqoop
• Importación/exportación RDMS Hadoop
• Azure PowerShell
• Extensión de PowerShell para interactuar con
Azure
• AzureHDInsightSqoopJobDefinition
• …
Carga de Datos
Estructurados
8
10. • ¡Serialización!
• AVRO
• JSON
• CSV
• ORC (Optimized Row Columnar)
• Transformar y almacenar
• Herramientas de serialización
• Herramientas de almacenamiento en la nube
Carga de Datos
No Estructurados
10
12. • Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la
estructura
• Serializar
Carga de Datos
Casos especiales
12
16. • Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc
• Lenguaje de consulta como SQL: HiveQL
• Por detrás ejecuta MapReduce
Transformaciones
Hive
16
17. • Lenguaje de scripting de alto nivel
• Fácil programación extensible
• Ejecuta trabajos MapReduce
Transformaciones
Pig
17
20. Siéntate a comer con nosotros o tómate un café y aclara tus
dudas
¡Gracias!
20
@erincon
Director Área Relacional
Eladio Rincón
@yolrod
DPS
Yolanda Olmedo
@Daniel_Seara
Mentor
Daniel Seara
21. Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
21