Aplicación de los Clusters en la empresas (Amazon Redshift)
Se describe la arquitectura del clusters que utilizar Amazon Redshift, y también el funcionamiento de cada una de sus partes: By Iván Luis Jiménez
4. ¿Qué es un clúster?
Introducción 2/20
El término cluster en ingles, que significa grupo o raíz.
Conjuntos o conglomerados de computadoras unidas entre sí,
normalmente por una red de alta velocidad y que se comportan
como si fuesen una única computadora.
6. Beneficios de la Tecnología Clúster
Introducción 4/20
Alto rendimiento
Alta disponibilidad
Alta eficiencia
Escalabilidad
7. Clasificación de los clústeres
Introducción 5/20
Según sus características
HPCC - Clústeres de alto rendimiento
HA o HACC - Clústeres de alta disponibilidad
HT o HTCC - Clústeres de alta eficiencia
8. Componentes de un clúster
Introducción 6/20
Nodos
Almacenamiento
Sistemas Operativos
Conexiones de red
Middleware
Protocolos de comunicación y servicios
Aplicaciones
Ambientes de programación paralela
10. RedShift
Funciones 8/20
Es un almacén de datos rápido y completamente administrado que
permite analizar todos los datos empleando de forma sencilla y rentable
SQL estándar y las herramientas de inteligencia empresarial (BI)
existentes. Permite ejecutar concultas analíticas complejas en petabytes
de datos estructurados, utilizando una sofisticada optimización de
consultas, almacenamiento en columnas en discos locales de alto
desempeño y ejecución masiva de consultas paralelas.
13. Aplicaciones Cliente
Esquemas 11/20
Amazon RedShift se integra con varias herramientas de carga de datos y
ETL (extracción, transformación y carga) y con herramientas de análisis,
minería de datos e informes de inteligencia empresarial(BI).
14. Clústers
Esquemas 12/20
Un componente principal de la infraestructura de un data warehouse de
Amazon Redshift es un clúster.
Un cluster se compone de uno o más nodos de computación. Si un clúster
se aprovisiona con dos o más nodos de computación, un nodo principal
adicional coordina los nodos de computación y gestiona la comunicación
externa. La aplicación cliente interactua de forma directa solo con el nodo
principal. Los nodos de computación son transparentes para las
aplicaciones externas.
15. Nodo Principal
Esquemas 13/20
El nodo principal administra las comunicaciones con los programas de
clientes y todas las comunicaciones con los nodos de computación. Según
el plan de ejecución, el nodo principal compila el código, lo distribuye a
los nodos de computación y les asgina una parte de los datos a cada uno.
El nodo principal distribuye instrucciones SQL a los nodos de
computación solo cuando una consulta hace referencia a tablas que se
encuentran almacenadas en los nodos de computación. Todas las otras
consultas se ejecutan exclusivamente en el nodo principal.
16. Nodos de Computación
Esquemas 14/20
Los nodos de computación ejecutan el código compilado y envían
resultados intermedios de vuelta al nodo principal para la agregación
final.
Cada nodo de computación tiene su propia CPU dedicada, memoria y
almacenamiento en disco integrado, que se determinan por el tipo de
nodo. A medida que la carga de trabajo crece, puede aumentar la
capacidad de cómputo y almacenamiento de un clúster aumentando el
número de nodos, actualizando el tipo de nodo o ambas.
Amazon Redshift proporciona dos tipos de nodos: nodos de
almacenamiento denso y nodos de computación de alta densidad.
Cada nodo proporciona dos opciones de almacenamiento. Puede
comenzar con un solo nodo de 160 GB y ampliarlo a varios nodos de 16 TB
para admitir un petabyte de datos o más.
17. Sectores del nodo
Esquemas 15/20
Un nodo de computación está particionado en sectores. A cada sector se
le asigna una parte de la memoria y del espacio en disco del nodo, donde
se procesa una parte de la carga de trabajo asignada al nodo. El nodo
principal administra los datos de distribución a los sectores y les reparte la
carta de trabajo de cualquier consulta u otra operación de base de datos.
A continuación, los sectores funcionan en paralelo para completar la
operación.
18. Red Interna
Esquemas 16/20
Amazon Redshift aprovecha las conexiones de ando de banda alto, la
gran proximidad y los protocolos de comunicación personalizados para
proporcionar una comunicación de red privada de muy alta velocidad
entre el nodo principal y los nodos de computación. Los nodos de
computación de ejecutan en una red aislada independiente a las que las
aplicaciones cliente nunca obtienen acceso directamente.
20. Conclusiones
Conclusiones 18/20
En su forma básica solo se compone de nodos y red de
comunicación.
No requieren muchos recursos hardware y software para
funcionar, ya que lo podemos implementar con PCs
básicas y sistemas operativos libres o gratis.
Fácilmente escalable
En ámbito tecnológico son muy comunes.