Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
1. Conociendo los servicios adicionales en BigData
26 de Agosto 2015 (12 pm GMT -5)
Freddy Angarita
Resumen:
Todos han empezado a usar y a conocer Hadoop y HDInsight, en
parte los lenguajes usados para su consumo, pero poco se hablado
de los servicios complementarios que pueden enriquecer la
experiencia BigData, conozca estos servicios y su aplicación.
Está por comenzar:
Moderador: Kenneth Ureña
Próximos Eventos
09 de Setiembre
Warner Chaves
SQL Server Rápido y Furioso
02 de Setiembre
Alejandro Cordero
SQL Monitoring
16 de Setiembre
Javier Villegas
SQL como un servicio en la nube
2. Distributed Storage (HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
DataIntegration
(ODBC/SQOOP/REST)
EventPipeline
(EventHub/
Flume)
Legend
Red =
Core Hadoop
Blue =
Data processing
Gray= Microsoft
integration
points and
value adds
Orange =
Data Movement
Green =
Packages
HDInsight and Hadoop ecosystem
YARN
3. Similar a Base de Datos
• HBASE
• Base de datos no relacional
• Escrita en Java
• Usa HDFS como Sistema de archivos
• Escenario más usado: Encontrar pequeños bloques datos en grandes volúmenes de datos
• Ejemplo: Los 20 elementos más costosos entre 5 mil millones de objetos
• Facebook lo usa para su plataforma de mensajería
• HCatalog
• Capa de administración de almacenamiento para Hadoop
• Su idea es tener buscar una representación de datos relacionales en Hadoop
3
4. Lenguajes
• Pig
• Plataforma para la creación de Jobs Map-Reduce
• Piglatin similar a TSql
• Puede ser extendido usando varios lenguajes, incluyendo Javascript
• Creado por Yahoo luego pasa a la fundación Apache en 2006.
• Hive
• Ayuda a proveer capacidades BI sobre Hadoop
• Lenguaje HiveQL similar a TSql
• Scala
• Nuevo lenguaje para ejecutar instrucciones in-memory
• Usa Spark
4
5. Conexión
• Polybase
• Permite a los usuarios de SqlServer PDW ejecutar consultas contra datos almacenados en Hadop
• Es possible hacer un JOIN con datos almacenados en HADOOP
• Hive ODBC
• Es un driver ODBC para conectar HADOOP con productos Microsoft
• Excel
• PowerPivot
• SharePoint
• Sqoop
• Enviar y recibir grandes volúmenes de información desde y hacia bases de datos relacionales
• REST – WebHDFS
• Cualquier producto puede conectarse con HADOOP usando el API Rest (Móviles, Web..)
5
6. Minería de Datos
• Mahout
• Contiene una seria de algoritmos de minería de datos para análisis predictivo y descriptivo sobre
información almacenada en Hadoop
• Rhadoop
• Implementación especial de R
• R
• Es possible instalar R en las máquinas virtuales de HADOOP, como resultado, podemos interactuar
con HADOOP para hacer análisis estadístico avanzado usando R
6
7. WorkFlow
• Oozie
• Permite la definición y ejecución de Workflows
• Usa MapReduce y Jobs PIG
• Flume
• Colección, agregación y movimiento de grandes volúmenes de datos
• Especializado en el procesamiento de LOGs
7
11. 11
Oportunidades de Voluntariado
PASS no pudiera existir sin personas apasionadas y
dedicadas de todas partes del mundo que dan de su
tiempo como voluntarios.
Se un voluntario ahora!!
Para identificar oportunidades locales visita
volunteer.sqlpass.org
Recuerda actualizar tu perfil en las secciones de
“MyVolunteering” y MyPASS para mas detalles.
13. Conociendo los servicios adicionales en
BigData
26 de Agosto de 2015
Freddy Angarita
Títulos y reconocimientos.
Moderador: Kenneth Ureña
14. SQL Server Rápido y Furioso
02 de Setiembre (12 pm GMT -5)
Alejandro Cordero
Resúmen:
En esta sesión analizaremos experiencias de la vida real como consultor
en trabajos de mejora de rendimiento. Veremos mejores prácticas para la
configuración de SQL Server, tips para un mejor T-SQL y un ejercicio de
como monitorear mi servidor de base de datos con Performance
Counters, un SQL Server Express y un Excel con Power Pivot.
Próximo Evento
Hinweis der Redaktion
HBase is non relational database written in Java. It uses HDFS as its file system. This database is used in scenarios where we need to store sparse data (small information found within large data; e.g., finding 50 largest items in 2 billion objects). Facebook’s messaging platform uses HBase database.
Pig is a high level platform for creating map-reduce jobs for Hadoop. It uses a language called PigLatin which is very “similar” to SQL. It can be extended further to be used from other programming languages like JavaScript. Developed by Yahoo and then moved to Apache S/W foundation in 2006.
Hive is developed by Facebook and it helps in providing BI capabilities on top of Hadoop. We can analyze Hadoop’s HDFS data using Hive’s querying language called HiveQL which is also similar to SQL in syntax.
HCatalog is a storage management layer for Hadoop. Basically it helps presenting HDFS data in relational format.
Polybase allows SQL Server PDW users to execute queries against data stored in Hadoop’s HDFS. So, as an example, users can fire queries that join data between HDFS and PDW tables!
Mahout is a set of machine learning algorithms that can use Hadoop for processing.
Oozie is a server-based Workflow Engine specialized in running workflow jobs with actions that run Hadoop MapReduce and Pig jobs.
Flume is used to collect, aggregate and move large amount of log data.
Sqoop is used to transfer data between relational and Hadoop. Microsoft uses Sqoop based connector to move data between SQL Server and Hadoop.
Hive ODBC driver is used to connect different Microsoft products to connect to Hive which in turn provide connectivity with Hadoop. Products like Excel, Power Pivot, SharePoint Insights, SSRS, SSAS, etc.
REST Products can connect to Hadoop’s HDFS using REST APIs as well. A common requirement for this scenario is from small devices or from apps running outside a Hadoop cluster where Hadoop’s native programming is not available. This REST connectivity is possible through implementation of WebHDFS.
Microsoft’s HDInsight clusters can be managed using System Center management pack for HDInsight
Speaking Points:
Biggest buzzword in Big Data right now is Hadoop
It can mean many things, but always includes HDFS and MapReduce
HDInsight
Red = in product now
Blue = planned for product
Green = ecosystem can connect now
Purple = Samples available
Orange = ecosystem planned
Flume, HBase are not available in the first release of HDInsight Service
As of 3/15, we don’t have an on-premises solution, thus AD integration is not yet available.
System center integration will come later as well.
The Green boxes are packages in the ecosystem that have not been included in the service, but should work out of the box by downloading them.