SlideShare una empresa de Scribd logo
1 de 21
Carga y procesamiento de datos en
HDInsight
@erincon Eladio Rincón
Director Área Relacional
erincon@solidq.com
@yolrod Yolanda Olmedo
DPS
yolmedo@solidq.com
@Daniel_Seara Daniel Seara
Mentor
dseara@solidq.com
Agenda
• Almacenamiento en HDInsight
• Carga de datos
• Herramientas para la carga de datos
• Estructurados
• No estructurados
• Especiales
• Transformaciones
• Hive
• Pig
• Map Reduce
• Obteniendo resultados
2
• Azure HDInsight cluster
• Hortonworks Data Platform
• Arquitectura
HDInsight
Almacenamiento
3
HDInsight
Ecosistema
4
Distributed Storage
(HDFS)
Distributed Processing
(Map Reduce)
ODBC
World’s Data (Azure Data
Marketplace)
Windows Azure Storage
• Bibliotecas .Net que facilitan la tarea
• Serialización
• JSON
• AVRO
– Interacción con HDInsight y Azure
Carga de Datos
Herramientas para la carga de Datos
5
DEMO
6
Encontrando lo que
necesitamos con NuGet
Escenario
Datos de clima y consumo de cerveza 
Analizar grandes
volúmenes de
información
respecto del clima y
su correlación de
consumo,
relacionado con
períodos
estacionales
7
• Sqoop
• Importación/exportación RDMS  Hadoop
• Azure PowerShell
• Extensión de PowerShell para interactuar con
Azure
• AzureHDInsightSqoopJobDefinition
• …
Carga de Datos
Estructurados
8
DEMO
9
Importando datos de base
de datos a HDInsight
• ¡Serialización!
• AVRO
• JSON
• CSV
• ORC (Optimized Row Columnar)
• Transformar y almacenar
• Herramientas de serialización
• Herramientas de almacenamiento en la nube
Carga de Datos
No Estructurados
10
DEMO
11
Llevando datos no
estrcuturados a HDInsight
• Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la
estructura
• Serializar
Carga de Datos
Casos especiales
12
DEMO
13
Llevando datos diferentes a
HDInsight
• Núcleo de Hadoop
• Procesamiento paralelo
• Divide trabajo en pequeñas tareas
• Tolerancia a fallos
Transformaciones
MapReduce
14
Transformaciones
MapReduce
15
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezcla
y
ordena
• Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc
• Lenguaje de consulta como SQL: HiveQL
• Por detrás ejecuta MapReduce
Transformaciones
Hive
16
• Lenguaje de scripting de alto nivel
• Fácil programación extensible
• Ejecuta trabajos MapReduce
Transformaciones
Pig
17
Obteniendo resultados
Leyendo del cluster
18
¿Preguntas?
19
Siéntate a comer con nosotros o tómate un café y aclara tus
dudas 
¡Gracias!
20
@erincon
Director Área Relacional
Eladio Rincón
@yolrod
DPS
Yolanda Olmedo
@Daniel_Seara
Mentor
Daniel Seara
Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
21

Más contenido relacionado

Destacado

Destacado (6)

NS Prefix 外伝 … Copy-On-Write #関モバ
NS Prefix 外伝 … Copy-On-Write #関モバNS Prefix 外伝 … Copy-On-Write #関モバ
NS Prefix 外伝 … Copy-On-Write #関モバ
 
Recycling Energy: Charge your Phone with Coffee #recyclenrgy
Recycling Energy: Charge your Phone with Coffee #recyclenrgyRecycling Energy: Charge your Phone with Coffee #recyclenrgy
Recycling Energy: Charge your Phone with Coffee #recyclenrgy
 
Swift 2.0 大域関数の行方から #swift2symposium
Swift 2.0 大域関数の行方から #swift2symposiumSwift 2.0 大域関数の行方から #swift2symposium
Swift 2.0 大域関数の行方から #swift2symposium
 
プロトコル指向 - 夢と現実の狭間 #cswift
プロトコル指向 - 夢と現実の狭間 #cswiftプロトコル指向 - 夢と現実の狭間 #cswift
プロトコル指向 - 夢と現実の狭間 #cswift
 
AnyObject – 自分が見落としていた、基本の話
AnyObject – 自分が見落としていた、基本の話AnyObject – 自分が見落としていた、基本の話
AnyObject – 自分が見落としていた、基本の話
 
Tabela do zbierania informacji na temat trudności edukacyjnych ucznia
Tabela do zbierania informacji na temat trudności edukacyjnych uczniaTabela do zbierania informacji na temat trudności edukacyjnych ucznia
Tabela do zbierania informacji na temat trudności edukacyjnych ucznia
 

Similar a Carga y procesamiento de datos en HDInsight

Migración de Base de Datos con SQL Developer
Migración de Base de Datos con SQL DeveloperMigración de Base de Datos con SQL Developer
Migración de Base de Datos con SQL Developer
Valentin Leonard Tabacaru
 

Similar a Carga y procesamiento de datos en HDInsight (20)

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Visualización de big data con power view
Visualización de big data con power viewVisualización de big data con power view
Visualización de big data con power view
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Polybase
PolybasePolybase
Polybase
 
Hadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptxHadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptx
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de Datos
 
Sql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datos
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 
Polybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datosPolybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datos
 
Migración de Base de Datos con SQL Developer
Migración de Base de Datos con SQL DeveloperMigración de Base de Datos con SQL Developer
Migración de Base de Datos con SQL Developer
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Drupalcamp 2014 reconstruir un medio digital idealista news
Drupalcamp 2014   reconstruir un medio digital idealista newsDrupalcamp 2014   reconstruir un medio digital idealista news
Drupalcamp 2014 reconstruir un medio digital idealista news
 

Más de Eladio Rincón Herrera

Data E2E. el ciclo de vida de los datos
Data E2E. el ciclo de vida de los datosData E2E. el ciclo de vida de los datos
Data E2E. el ciclo de vida de los datos
Eladio Rincón Herrera
 

Más de Eladio Rincón Herrera (7)

No-SQL, Azure Table Storage y MongoDB
No-SQL, Azure Table Storage y MongoDBNo-SQL, Azure Table Storage y MongoDB
No-SQL, Azure Table Storage y MongoDB
 
Windows Azure SQL Databases
Windows Azure SQL DatabasesWindows Azure SQL Databases
Windows Azure SQL Databases
 
Keynote Relacional SQL Server para hobbits y enanos
Keynote Relacional  SQL Server para hobbits y enanosKeynote Relacional  SQL Server para hobbits y enanos
Keynote Relacional SQL Server para hobbits y enanos
 
03 24 hopes_2014_eladiorincon
03 24 hopes_2014_eladiorincon03 24 hopes_2014_eladiorincon
03 24 hopes_2014_eladiorincon
 
Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...
Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...
Some Features on SQL Server 2012 from the Accidental DBA and the ITPro perspe...
 
Summit 2013: Optimizando SharePoint2013 para grandes volumenes de informacion
Summit 2013: Optimizando SharePoint2013 para grandes volumenes de informacionSummit 2013: Optimizando SharePoint2013 para grandes volumenes de informacion
Summit 2013: Optimizando SharePoint2013 para grandes volumenes de informacion
 
Data E2E. el ciclo de vida de los datos
Data E2E. el ciclo de vida de los datosData E2E. el ciclo de vida de los datos
Data E2E. el ciclo de vida de los datos
 

Último

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
silviayucra2
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
241521559
 

Último (10)

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 

Carga y procesamiento de datos en HDInsight