En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
6. Big data, o los datos sólo complejos?
velocidad
variedad complejidad
volumen
Datos
interpretarpreparación
7. Grandes volúmenes de datos de hoy en día, pocos
datos del mañana
Complejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
8. Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
10. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
11. Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
13. La naturaleza cambiante del Big Data
• Big Data tiene importantes cualidades distintivas
que lo diferencian de los datos corporativos
"tradicionales".
• Los datos no son centralizadas, muy estructurados
y de fácil manejo, ahora más que nunca los datos
están muy dispersos, poco estructurados (o no tiene
estructura en absoluto), y cada vez más con
volúmenes más grandes
14. La naturaleza cambiante del Big Data
• La web
• Dispositivos móviles
• Infraestructura de TI
• y otras fuentes está creciendo exponencialmente cada año.
Volumen - La cantidad de datos que han
creado las empresas a través de
15. La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez
mayor,
• No estructurados de datos basados en texto
• Datos semi-estructurados como los datos de los medios sociales
• Los datos basados en la localización
• Datos de logs, ejemplo servidores Web
16. La naturaleza cambiante del Big Data
Velocidad
• La velocidad a la que se está creando nuevos datos
• La necesidad de análisis en tiempo real para obtener valor de negocio
de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
17. Principales fuentes de datos
• Redes sociales y medios de comunicación
• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156
millones de blogs públicos
• Dispositivos móviles
• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
• Transacciones en Internet
• miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
• Dispositivos de red y sensores
19. Casos en los cuales se utiliza Big Data
• Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
• Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
• Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
20. Casos en los cuales se utiliza Big Data
Sentiment Analysis
• Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
• Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas, marcas
o productos.
• El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.
21. Casos en los cuales se utiliza Big Data
Modelado de riesgo
• Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de los
activos financieros
• Para preparar la posible "qué pasaría si" los escenarios basados en el
comportamiento del mercado simulado, y para puntuación de
clientes potenciales por el riesgo.
22. Casos en los cuales se utiliza Big Data
Motor de recomendación
• Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados en el
análisis del perfil de usuario y los datos de comportamiento.
• LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a
la venta a los consumidores en línea.
23. Casos en los cuales se utiliza Big Data
Detección de Fraude
• Utilizar técnicas de Big Data para combinar el comportamiento
del cliente, históricos y datos de transacciones para detectar la
actividad fraudulenta.
• Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
24. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
• Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear y
determinar la efectividad de las campañas de marketing.
• Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares, como los
datos de click-stream y registros detallados de llamadas, para
aumentar la precisión de los análisis.
25. Casos en los cuales se utiliza Big Data
Análisis Social Graph
• Junto con Hadoop los datos de redes sociales se extraen
para determinar qué clientes representan la mayor
influencia sobre los demás dentro de las redes sociales.
• Esto ayuda a determinar las empresas que son sus
clientes "más importantes", que no siempre son los que
compran la mayoría de los productos o de los que más
gastan, pero los que tienden a influir en el
comportamiento de compra de la mayoría de los
demás.
26. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
• Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
• Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
27. Nuevos Enfoques para el procesamiento y análisis de datos
• Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
• Hadoop
• NoSQL
• Bases de datos analíticos masivamente paralelo
29. Introducción a Big Data y Hadoop
• Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
• Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que
puede:
• Almacenar petabytes de información
• Permite procedamiento distribuido
• Principales atributos:
• Redundante y confiable (no se pierden datos)
• Centrado en el análisis por lotes
• Facilidad de crear aplicaciones y procesamiento distribuido
• Ejecuta en cualquier hardware
30. Componentes de Hadoop
• Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto
en cualquier clúster Hadoop dado;
• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información
del cliente en lugar del grupo de datos en particular se almacenan y si los nodos
fallan;
• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica
periódicamente y almacena los datos del nombre de nodo debe fallar;
• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce, o el tratamiento de los datos.
• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
40. Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles Osborne,
de la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
42. Procesamiento de la lógica en HDInsight
1.6, 2.1, 3.0
Hadoop 1.x: Lote para el procesamiento
43. Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes
44. JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};
45. Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora,
consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
46. Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión
49. Interoperatibilidad
Integración con
las herramientas
de Análisis de
Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP,
POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
50.
51. Principios PDW
• Procesamiento paralelo masivo (MPP) para las
consultas
• Dentro de la memoria de columnas
• Múltiples nodos con CPU dedicada, memoria, almacenamiento
• Incremental extensible
• Escala de terabytes a múltiples petabytes
53. Big data + BI tradicional = poderoso + easy
Grandes, de
datos
rápida, o
complejo
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
La interacción,
exploración,
rNFORMES,
visualización
PDW +
Polibase
54. Windows HADOOP
• 2 Versiones
• Cloud
• Azure Service
• On Permise
• Integración con el Hadoop File System with Active Directory
• Integración con BI
• Herramientas de integración
• Sqoop
• Integración con SQL Server
55. Introducción a HDInsight
• HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
• Disponible tanto para Windows Server y como un servicio
Windows Azure
• Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel
59. HDP para Windows
Hortonworks
Data Platform (HDP)
For Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
60.
61. Modelando “Big Data” con PowerPivot
• Big data puede ser integrado con otras fuentes de
datos
• Potencial de Autoservicio de BI:
• PowerPivot puede cargar Big Data mediante el Table Import Wizard
• ODBC para HDInsight
• OLE DB para SQL Server con enlace a HDInsight
• PowerPivot puede ser fuente para:
• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
• Otras herramientas de análisis (una vez publicado en SharePoint)
62. Consideraciones de modelar “Big Data” con PowerPivot
• Los resultados de Big Data pueden ser muy grandes
para almacenamiento en memoria
• Workaround: minizar la cantidad de datos
consultados
• Recuperar un periodo de tiempo más pequeño
• Reducir las dimensiones o ser más granular
• Una vez que está cargado el modelo puede ser
manipulado con rapidez
68. "... Almacenamiento de datos ha alcanzado
el punto de inflexión más importante
desde su creación. La gestión de datos en
TI está cambiando. "
- Gartner, "El estado de almacenamiento de datos en
2012"
71. Técnicas de diseñadores toda tu datos
Enriquecer y optimizar sus datos con fuentes no tradicional
6
72. Mantener la inversión
legado
Comprar nuevo nivel
uno dispositivo de
hardware
Adquirir Big Data
solución
Adquirir la
inteligencia de
negocios
Obstáculos para un almacén de datos moderna
Escalabilidad limitada y
capacidad de gestionar
nuevos tipos de datos
Entrenamiento Alta adquisición y
costos de
migración
Complejidad y
adopción
73. Introducción al sistema Microsoft Analytics Platform
Un moderno dispositivo de almacenamiento de datos llave en mano
• De datos relacionales y no
relacionales en un único
dispositivo
• Hadoop lista para la empresa
• Consultas integradas a través
de Hadoop y PDW utilizando
T-SQL
• La integración directa con las
herramientas de BI de
Microsoft, como Microsoft
Excel
• Cerca de rendimiento en
tiempo real con In-Memory
Columnstore
• Capacidad de escalabilidad
para incluir cada vez mayor de
datos
• La eliminación del almacén de
datos cuellos de botella con
MPP SQL Server
• Concurrencia que ayuda
rápida adopción
• Precio de appliance de datos
más bajo por terabyte
• Valor a través de una única
solución
• Valor con opciones de
hardware flexibles utilizando
hardware comercial
74. Alto rendimiento y
sintonizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible ideas para
todo el mundo con
las herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento de
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
75. Carga en paralelo de
depósito de datos
HDInsight carga de trabajo
Fabric
Hardware
Aparato
Una región es un contenedor lógico
dentro de un appliance
Cada carga de trabajo contiene los
siguientes límites:
• Seguridad
• Medida
• Prestación de servicios
Resumen hardware APS
76. Proporciona un único Modelo de consulta T-
SQL para PDW y Hadoop con ricas
características de T-SQL, incluyendo joins sin
ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight para
permitir escenarios híbrido de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
PDWMicrosoft Azure
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con polibase
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI
Conjunto de
resultados
Seleccionar
...
77. (HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
78. Automatic MapReduce pushdown
Hadoop / Data Lake
(Cloudera, Hortonworks,
HDInsight)
Fuente sistemas
Actualizar Día / Hora / Minuto
SQL Server
Data Marts
SQL Server
Reporting Services
SQL Server
Analysis Services
APS
MapReduce T-SQL
Analytics / Ad-hoc / Visualización
Microsoft
HDInsight
SQL Server
Parallel Data
Warehouse
Polibase
79. HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0
80. Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando
Herramientas de Microsoft BI
81. Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de dato
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo / carpeta
Hadoop
3
(Opcional) Rechazar parámetros4
82. Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
Tipo de fuente de datos externa1
Lugar de origen de datos externos2
La activación o desactivación de la
generación de trabajo MapReduce
3
83. Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive
fichero de recursos]
2
Método de compresión3
(Opcional) Formato Opciones [Texto
Archivos]
4
84. <Format Options> :: =
[,FIELD_TERMINATOR = ‘value’],
[,STRING_DELIMITER = ‘value’],
[,DATE_FORMAT = ‘value’],
[USE_TYPE_DEFAULT = ‘value’]
Opciones de formato
Delimitador de columna1
Carácter de separación para los tipos
de datos de cadena
2
Para especificar un formato de fecha
determinado
3
¿Cómo se manejan las entradas que
faltan
4
85. PolyBase utilizando datos de Hadoop
Traer islas de datos Hadoop juntos
Ejecución de alta consultas de rendimiento contra los
datos Hadoop
De datos de almacenamiento de datos de archivado a
Hadoop (mover)
Exportación de datos relacionales para Hadoop (copia)
Importación de datos de Hadoop en un dato almacén
(copia)
86. Múltiples nodos con CPU dedicada, memoria y
almacenamiento
Posibilidad de añadir de forma incremental
hardware para la escalabilidad casi lineal a
múltiples petabytes
Capacidad para manejar complejidad de la
consulta y la concurrencia y escalabilidad
Capacidad para escalar HDInsight y PDW
Escalada fuera sus datos a petabytes
Escalabilidad de salida tecnologías en Sistema Analytics Platform
PDW
0 terabytes 6 petabytes
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
87. Un rendimiento increíblemente rápido
MPP y In-Memory Columnstore para la próxima generación rendimiento
• Datawarehouse con Column Store
• Carga datos hacia o desde la memoria para
rendimiento de próxima generación con una
mejora de hasta 60% en la velocidad de carga de
datos
Hasta 100x
más rápido
Hasta 15x
más compression
Column Store Index
Ejecución de consultas en paralelo
88. Clustered columnstore index
¿Por qué es es importante?
• Ahorra espacio
• Proporciona una gestión más fácil, eliminando
el mantenimiento de índices secundarios
Espacio utilizado =tabla espacio + índice espacio
0.0
5.0
10.0
15.0
20.0
1 2 3 4 5 6
Space used in GB (table with 101 million rows)
91% de
ahorro
In-Memory Columnstore ¡se ofrece en el
motor de almacenamiento en el PDW AU1
89. Ejecución de consultas en paralelo y distribuidos
Procesamiento de la ejecución de consultas relacionales
Consultas SQL enviadas al nodo de
control
1
El nodo de control crea plan de
ejecución de la consulta
2
El plan de consulta crea consultas
distribuidas para su ejecución en
cada nodo de cómputo
3
Las consultas distribuidas enviados
nodos en de cálculo (todos
corriendo en paralelo)
4
El nodo de control recoge los
resultados de la consulta y los
devuelve al usuario
5
ControlCliente
Calcular
Calcular
Calcular
Calcular
Administración
Applicance
Resultados de
la consulta
Consulta
del usuario
Crear una
consulta plan
Los resultados agregados
de la consulta
Operaciones del plan
de consulta en
paralelo
90. Herramientas de BI
Presentación de informes y cubos
SMP SQL Server
Concurrencia de datos
Gran rendimiento con cargas de trabajo mixtas
Analytics Platform
SystemETL / ELT con SSIS, DQS, MDS
ERP CRM LOB APPS
ETL / ELT con DWLoader
Hadoop / Big Data
PDW
HDInsight
Polibase
Consultas ad hoc
Intra-Day
Casi en tiempo real
Fast ad hoc
Almacén de columnas
Polibase
CRTAS
Linked Table
Real-Time
ROLAP / MOLAP
DirectQuery
SNAC
91. Hardware y software de ingeniería junto
Co-dirigido con
HP, Dell, Quanta
y mejores
prácticas
Liderando el
rendimiento con
hardware
comercial
Pre-configurado,
construido, y
ajustado
software y
hardware
Integrado apoyo
con un solo
contacto Microsoft
PDW
HDInsight
Polybase
92. PDW region
Hardware architectureInfiniBand
InfiniBand
Ethernet
Ethernet
Control node
Failover node
Master node
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Networking
PDW region
HDInsight region
Rack #1
InfiniBand
InfiniBand
Ethernet
Ethernet
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
HDI extension base
unit
HDI active scale
unit
HDI extension base
unit
HDI active scale
unit
Rack #2
HST-02
HST-01
HSA-01
HST-02
Economical
disk storage
IB and Ethernet
Active Unit Dos nodos adicionales
Passive Unit HDInsight
Failover Node Alta Disponibilidad
93. Arquitectura virtualizada PANORAMA
Anfitrión 2
Anfitrión 1
Anfitrión 3
Anfitrión 4
Almacenami
ento en
disco
IB y
Ethernet
Directo SAS adjunto
Unidad BaseC
T
L
Ma
ssa
ch
us
ett
s
D
A
D
V
M
M
Calcule 2
Calcule 1
• Motor PDW
• DMS Manage
• SQL Server 2012 Enterprise Edition (build PDW)
Detalles de software
• Todos los hosts ejecutan Windows Server 2012
Standard and Windows Azure Virtual Machines
• Fabric o carga de trabajo en Hyper-V virtual Máquinas
• PDW agente que se ejecuta en todos los hosts y es
toda virtual máquinas
• DWConfig y consola de administración
• Ventanas espacios de almacenamiento y Azure
Storage