SlideShare ist ein Scribd-Unternehmen logo
1 von 46
Big Data: La Hora H
Agenda
•Introducción: La revolución de los Datos
•Escenarios de Business Analytics
•¿Y cómo exploto toda esta información?: Microsoft Excel
La revolución de los Datos
Tendencias de la Industria
44x
En 2015, servicios de nube pública tendrán 46%
de crecimiento neto en gasto de ti
Introducción: La revolución de los datos
•Big Data, Data Science y lo que nos pueden proporcionar
•Actores de mercado en Big Data
•Utilidades de Big Data
¿Qué es Big Data?
• Big data Consists of datasets that grow so large that they
become awkward to work with using on-hand DB
Management tools.
• Wikipedia
Big data is when the size of the data itself becomes part of
the problem
Mike Lukides, O’Reilly Radar
It’s not just your “Big Data” problems, it’s all about your BIG
“data” Problems.
Alexander Stojanovic, Hadoop Manager on Win Azure
Las 4 V’s
Volumen
Velocidad
Variedad
Variabilidad
Ejemplos de Big Data
12 Tb
día
21 Pb
Hadoop
cluster
7 Pb
mes
1 Tb
tweets/dia
75
Million
scores/day
14 Tb
Hadoop
cluster
4 Billion
Graph
edg/day
7 Tb
datos/dia
Ficheros log
Datos
menos
estructura
dos
Datos
públicos
Device
outputs
Texto/
Imágenes
New
Insights
 Datos menos estructurados
 Intentar un ETL para
transformarlo en relacional
 Tiempo de desarrollo elevado
 Son datos susceptibles a
cambios de estructura
 Archivados y Borrados
 Acceso caro
Entonces…¿cómo obtengo insights?
Datos
estructurados
 Datos estructurados
 Bases de Datos relacionales
 Bases de Datos analíticas
Registros
¿Qué es Big Data para ?
• Datos, datos, datos…..
• ¿Big? Hoy es Big, pero dentro de 2-3 años, ¿seguirá siendo big?
• Equipos y negocios “centrados en datos”
• Big Data: “ Barreras para que una organización o equipo puedan almacenar, procesar y
acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones,
reducir riesgos, etc.”
Utilidades de Big Data
•Vista completa de nuestros usuarios
•Seguridad / inteligencia
•Operaciones Analíticas (TI, dispositivos,…)
•Complemento de DW
Caso de Éxito: Mood Index
MIDAMO
Escenarios de Business
Analytics
Escenarios de Business Analytics
•Análisis sencillo de gran cantidad de datos no estructurados:
Microsoft HDInsight
•Análisis sencillo de datos en memoria: Microsoft StreamInsight
•Análisis en profundidad: SQL Server y Self-Service BI
¿Qué es Hadoop?
•Open Source
•Plataforma de almacenamiento de datos y
análisis para Big Data
•Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados,
Menos estructurados)
• Uso de hardware económico
•No para OLTP / OLAP
•Escalable
• Escala linealmente en capacidad de almacenamiento
y computación
•Tolerante a Fallos
• Proporcionado por el Sistema de ficheros distribuido
y el framework de lectura
•Procesamiento distribuido
• Sigue la estrategia de divide y vencerás
¿Qué es Hadoop?: Ventajas
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Hadoop Distributed File System (HDFS)
•Sistema de ficheros distribuido diseñado para
grandes conjuntos de datos
•Fiable y con buen rendimiento
• Alto rendimiento de acceso: Latencia de disco
• Alto ancho de banda Almacenamiento Clustered auto-
reparable
•Divide los datos entre los nodos en un Cluster
• NameNode: Mantiene el mapeo de bloques de
ficheros a nodos esclavos
• DataNode: Almacena y sirve bloques de datos
Hadoop Distributed File System (HDFS)
File File File
File File File
File
File File File
File File File
File File
File File File
File File
File File File
File File
NameNode DataNode
File File
File File
DataNode DataNode
File
File
File File
File
File File
Block Size = 64 Mb
Replication Factor = 3
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Map Reduce Framework
• Motor de planificación parar Procesamiento de carga
distribuido
• Pares Clave-Valor
• Función Map
• Función Reduce
• Lenguajes de Script : Java, python, Javascript…
• Saca provecho de la distribución de datos de HDFS
• JobTracker: Planifica los trabajos entre los TaskTrackers
• TaskTracker: unidades de trabajo
Map Reduce Framework
File File File
File File File
File
File File File
File File File
File File
File File File
File File
File File File
File File
JobTracker TaskTracker
MapReduce
Job
TaskTracker TaskTracker
File
File
File File
File
File File
map
mapmap
Reduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Sqoop
•Tecnología que sirve de interfaz entre HDFS y los
Sistemas de información empresarial
•Orígenes de datos relacionales integrados
• MySQL, Oracle, SQL Server …
•Importación / Exportación (Bidireccional)
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Pig
•Lenguaje de flujo de datos de alto nivel y
framework de ejecución
•Lenguaje de consulta: PigLatin
• Posibilidad de join de tablas
•Por detrás ejecuta trabajos MapReduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Hive
•Infraestructura Data Warehouse desde Hadoop
•Proporciona
• Sumarización de Datos
• Consultas Ad-hoc
•Lenguaje consulta estilo SQL: HiveQL
•Por detrás ejecuta trabajos MapReduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Otros componentes: Hadoop
Ecosystem
•Mahout
• Minería de Datos y Machine Learning
•Pegasus
• Page Rank y Graph Mining
• Social Network Analysis
HDInsight
•Project Isotope
•Proporciona Apache Hadoop en
• Windows Server
• Windows Azure
•Active Directory & System Center
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
Hadoop: Componentes Originales
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
HDInsight
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Microsoft
BI
Platform
HDinsight
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Windows Azure & Windows Server
Microsoft
BI
Platform
HDInsight
Características HDInsight
• HDFS
• Basado en Windows
• Compatibilidad con Directorio Activo
• Almacenamiento compatible:
• HDFS
• Azure Blob Storage
• Amazon S3
• MapReduce Framework
• Compatibilidad JavaScript
• Hadoop Streaming con compatibilidad F# y C#
Características HDInsight
• Hive
• Consola Interactiva
• Complemento Hive para Excel
• Hive ODBC Driver
• Potentes funciones regex
• Pig
• Consola Interactiva
• Sqoop
• Driver JDBC para SQL Server y SQL Server PDW
Administrando un cluster
HDinsight en Windows Azure
Primeros pasos
Escenarios de Integración
¿Y cómo explotamos esta
información?
¿Y cómo exploto toda esta información?:
Microsoft Excel
•PowerPivot
•Complementos Excel para Minería de Datos
•Acceso a Datos Hadoop
•Data Explorer
Excel y sus complementos
Big Data: La Hora H

Weitere ähnliche Inhalte

Was ist angesagt?

Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit Dubey
Rohit Dubey
 

Was ist angesagt? (20)

Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadh
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data
Big DataBig Data
Big Data
 
Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)Big Data & Analytics (Conceptual and Practical Introduction)
Big Data & Analytics (Conceptual and Practical Introduction)
 
Presentacion big data
Presentacion big dataPresentacion big data
Presentacion big data
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture Capabilities
 
Big data
Big dataBig data
Big data
 
Big Data - Applications and Technologies Overview
Big Data - Applications and Technologies OverviewBig Data - Applications and Technologies Overview
Big Data - Applications and Technologies Overview
 
The Myths of Big Data
The Myths of Big DataThe Myths of Big Data
The Myths of Big Data
 
Business Intelligence - Intro
Business Intelligence - IntroBusiness Intelligence - Intro
Business Intelligence - Intro
 
Overview of Big data(ppt)
Overview of Big data(ppt)Overview of Big data(ppt)
Overview of Big data(ppt)
 
Big data, Big decision
Big data, Big decisionBig data, Big decision
Big data, Big decision
 
8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy8 Steps to Creating a Data Strategy
8 Steps to Creating a Data Strategy
 
What is big data?
What is big data?What is big data?
What is big data?
 
Big_data_ppt
Big_data_ppt Big_data_ppt
Big_data_ppt
 
Finding business value in Big Data
Finding business value in Big DataFinding business value in Big Data
Finding business value in Big Data
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit Dubey
 
Role of Data in Digital Transformation
Role of Data in Digital TransformationRole of Data in Digital Transformation
Role of Data in Digital Transformation
 

Ähnlich wie Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
Antonio Rodriguez
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 

Ähnlich wie Introducción a Big Data. HDInsight - Webcast Technet SolidQ (20)

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Polybase
PolybasePolybase
Polybase
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
 
Carga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsightCarga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsight
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 

Mehr von SolidQ

Mehr von SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 

Kürzlich hochgeladen

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Kürzlich hochgeladen (15)

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 

Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Hinweis der Redaktion

  1. http://social.technet.microsoft.com/wiki/contents/articles/13820.introduction-to-hdinsight-services-for-windows-azure.aspx
  2. As we look at the IT industry today, a number of important trends are changing the way software is being purchased, deployed and used in the organization. Data ExplosionThe volume of data in the workplace is exploding. According to IDC, digital data will grow more than 40x over the next decade. As more and more data is created digitally, we expect to see ever greater demands being placed on our data platforms to store, secure, process and manage these large volumes of data.Consumerization of ITToday we see an increasing trend toward the “consumerization” of IT—creating the demand for Web 2.0 experiences in the business environment. As consumers, we are accustomed to powerful user-friendly experiences, whether searching the Internet on a mobile device to find information instantly, or quickly accessing our personal financial data. In the workplace, however, we are often unable to answer even the most basic questions about our business. Increasingly, users demand business experiences that more closely mirror the convenience and ease of use in consumer life.Private and Public CloudCloud computing is changing the way data is accessed and processed, and it is creating whole new models for the way applications are delivered. According to IDC, Cloud services will account for 46% of net-new growth in overall IT spending. With private and public cloud infrastructure, organizations have an opportunity to reduce TCO dramatically as data volume increases. As we see an evolution toward greater use of private and public clouds, we see an increasing need for solutions that support hybrid cloud scenarios.
  3. data is expected to grow by up to 44 times by 2020Data is growing faster than computers are getting bigger.2 billion internet users 2011Everyday, we create 2.5 quintillion bytes of data–so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: from sensors used to gather climate information, posts to social media sites, digital pictures and videos posted online, transaction records of online purchases, and from cell phone GPS signals to name a few. This data is big data. We’re discussing data problems ranging from gigabytes to petabytes of data. At some point, traditional techniques for working with data run out of steam.
  4. Big data spans three dimensions: Volume, Velocity ,Variety , VariabilityVolume – Big data comes in one size: large. Enterprises are awash with data, easily amassing terabytes and even petabytes of information. Velocity – Often time-sensitive, big data must be used as it is streaming in to the enterprise in order to maximize its value to the business. Variety – Big data extends beyond structured data, including unstructured data of all varieties: text, audio, video, click streams, log files and more. Variability
  5.  Yahoo uses up to 170 petabytes of data in Hadoop, an open source software framework for very large data sets, to customize the home pages it presents to users. That improved visits click-throughs by 160 percent,
  6. CrawlersMost of the organizations that have built data platforms have found it necessary to go beyond the relational database model. Traditional relational database systems stop being effective at this scale. Managing sharding and replication across a horde of database servers is difficult and slow. The need to define a schema in advance conflicts with reality of multiple, unstructured data sources, in which you may not know what’s important until after you’ve analyzed the data. Relational databases are designed for consistency, to support complex transactions that can easily be rolled back if any one of a complex set of operations fails. While rock-solid consistency is crucial to many applications, it’s not really necessary for the kind of analysis we’re discussing here. Do you really care if you have 1,010 or 1,012 Twitter followers?The typical decision-making process goes something like this: capture some data, integrate it together, analyze the clean and integrated data, make some decisions, execute. By the time you decide and execute, the data may be too old and have cost you too muchEjemplo de sensores en hospital
  7. After this, then “Why great performance, Why cheap, Why good processing, Why good data storage”
  8. Hadoop is essentially a batch systemHadoop processes data as it arrives, and delivers intermediate results in (near) realtime. Near real-time data analysis enables features like trending topics on sites like Twitter. These features only require soft real-time; reports on trending topics don’t require millisecond accuracy.
  9. HDFS está inspirado en el sistema de archivos de Google. El sistema de archivos distribuido de Hadoop tiene como propósito organizar los archivos en un espacio de nombres jerárquico. HDFS tiene dos diferencias fundamentales respecto otros sistemas de archivos: HDFS puede abarcar múltiples máquinas y además HDFS se ejecuta en un espacio de usuario, al contrario que otros sistemas de archivos los cuales están estrechamente ligados al kernel del sistema operativo. El sistema de archivos distribuido de Hadoop esta diseñado para almacenar de forma fiable archivos de tamaño grande en clusters. HDFS almacena cada archivo como una secuencia de bloques, todos los bloques del archivo excepto el último son del mismo tamaño. Los bloques pertenecientes a un archivo estarán replicados en diferentes clusters para la tolerancia a fallos. Tanto el tamaño de bloque como el factor de replicación se pueden configurar para cada archivo.NameNode: Nodo único maestro, que controla el namespace del sistema de archivos y regula el acceso a los archivos de las peticiones clientes. Mantiene el rastro de que DataNodes tienen qué bloques de datos y usa esta información para controlar la jerarquía de todo el sistema de archivo. DataNode: Son los responsables de servir las lecturas y escrituras desde el sistema de archivos cliente, realiza las operaciones como abrir, cerrar, renombrar, etc. de los archivos y directorios, además realizan la creación de bloques, eliminación y replicación bajo las instrucciones del NameNode.
  10. Block size: 64mbReplication factor: 3hdfs-site.xml
  11. MapReduce es un framework que permite la computación paralela sobre grandes colecciones de datos. Al igual que HDFS tiene también una arquitectura maestro/esclavo. Cuenta con un servidor maestro o JobTracker y varios servidores esclavos TaskTracker, uno por cada nodo del clúster. Veamos cuáles son las diferencias entre ellos:JobTracker es el punto de interacción con los usuarios. Los usuarios envían los trabajos Map/Reduce al JobTracker, que los pone en una cola de trabajos pendientes y ejecuta en orden de llegada. El JobTracker gestiona la asignación de tareas y delega las tareas a los TaskTrackers. Los TaskTrackers ejecutan tareas bajo la orden del JobTracker. MapReduce se basa en la idea de tomar una operación básica funcional y aplicarla, paralelamente, a gigabytes o terabytes de datos. Para lograr dicho paralelismo, necesitamos tener cada operación MapReduce independiente de las otras.Storing data is only part of building a data platform, though. Data is only useful if you can do something with it, and enormous datasets present computational problems.Google popularized the MapReduce approach, which is basically a divide-and-conquer strategy for distributing an extremely large problem across an extremely large computing cluster. In the “map” stage, a programming task is divided into a number of identical subtasks, which are then distributed across many processors; the intermediate results are then combined by a single reduce task.Google’s biggest problem, creating large searches. It’s easy to distribute a search across thousands of processors, and then combine the results into a single set of answers. What’s less obvious is that MapReduce has proven to be widely applicable to many large data problems, ranging from search to machine learning.
  12. Less network latency
  13. Otro de los conceptos que existen en el ecosistema de Hadoop es Sqoop. Sqoop permite transferir gran volumen de datos de manera eficiente entre Hadoop y datos estructurados externos, como RDBMS y Data Warehouse. Aunque se trata de un proyecto todavía en desarrollo, esta teniendo gran éxito en el mundo empresarial, con la finalidad de solidificar los datos de Hadoop y los datos de DW. Sqoop ofrece conectores para integrar Hadoop con otros sistemas, entre ellos SQL Server. Mediante este conector podemos importar datos desde:Tablas de SQL Server a archivos delimitados HDFSTablas de SQL Server a archivos SequenceFiles en HDFSTablas de SQL Server a las tablas de Hive.Consultas ejecutadas en SQL Server a archivos de texto delimitados de HDFSConsultas ejecutadas en SQL Server a archivos SequenceFiles en HDFSConsultas ejecutadas en SQL Server a las tablas de Hive.Y podemos exportar datos:De archivos delimitados HDFS a SQL ServerDe archivos SequenceFiles en HDFS a SQL ServerDesde las tablas de Hive a las tablas de SQL Server
  14. Pig ofrece una plataforma que consta de un lenguaje de alto de nivel para conseguir programas para analizar grandes volúmenes de datos. Pig presenta una característica importante que es el paralelismo, por lo que permite manejar grandes conjuntos de datos en su totalidad.La infraestructura que Pig presenta es un compilador que produce secuencias de MapReduce. El lenguaje Pig consiste en un lenguaje textual llamado PigLatin. PigLatin abstrae la programación de Java a una notación que hace que los programas de MapReduce en alto nivel, es parecido a SQL en RDBMS. Además, los usuarios pueden crear sus propias funciones para algún propósito en concreto.
  15. Hive consiste en un sistema de Data Warehouse para Hadoop que permite realizar consultas ad-hoc y analizar grandes volúmenes de datos almacenados en el sistema de archivos HDFS. Hive utiliza MapReduce para su ejecución y HDFS para su almacenamiento.Hive proporciona un mecanismo para abstraer la estructura de estos datos y consultar los datos mediante un lenguaje parecido a SQL, llamado HiveQL.Las sentencias HQL se descomponen por el servicio de HQL en tareas MapReduce y se ejecutan en un cluster. Las sentencias HQL se pueden ejecutar de distintas formas.· Podemos ejecutar las sentencias por línea de comandos, conocida como Hive Shell· Desde aplicaciones usando los conectores Java DatabaseConnectivity (JDBC) o Open DatabaseConnectivity (ODBC)· Desde un cliente llamado HiveThrift. Este cliente es muy similar que cualquier cliente de base de datos que se instala en el equipo cliente de un usuario y se comunica con el servidor de Hive. Se puede usar el cliente HiveThrift en aplicaciones escritas en C, Java, C#, PHP, Python o Ruby. Hive tiene un alto parecido a las bases de datos tradicionales, pero debido a que Hive se basa en Hadoop y operaciones MapReduce, presenta algunas diferencias. Hadoop está pensado para realizar consultas secuenciales, entonces podemos tener consultas con una latencia muy alta, por lo tanto, se sería adecuado utilizar Hive en aplicaciones que requieren tiempos de respuesta muy rápidos. Y por otro lado, Hive está orientado a operaciones de lectura, por lo que no es adecuado utilizarlo en aplicaciones que impliquen un alto número de escrituras
  16. Commercial support
  17. The real advantage of the JavaScript layer should show itself in integrating Hadoop into a business environment, making it easy for developers to create intranet analytical environments accessible by business users. Combined with Microsoft's focus on bringing server-side JavaScript to Windows and Azure through Node.js, this gives an interesting glimpse into Microsoft's view of where developer enthusiasm and talent will lie.