SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Implementación de un clúster
de alta disponibilidad para aplicaciones
administrativas mediante multiproceso
Presenta:
Ing. Fernando Alfonso Casas De la Torre
Instituto Tecnológico de La Laguna
División de Estudios de Posgrado e Investigación
Articulo MRL0580. Volumen online con ISSN 1946-5351, Vol. 11, No. 2, 2019, e indización en Fuente Académica Plus de EBSCO
Libro digital ebook Investigación en la Educación Superior: Morelia 2019 con ISBN 978-1-939982-48-3 online
Universidad
Nova Spania
Resumen
Articulo MRL0580
“Se muestra la creación de una plataforma de alto
rendimiento a bajo costo con equipos de cómputo
estándar para crear una plataforma para
procesamiento y análisis de metadatos con
multiproceso que apoya en la búsqueda de
información para obtención de soluciones y toma
de decisiones para investigación, escuelas,
empresas y negocios mostrando las ventajas de
usar un clúster de alta disponibilidad con Apache
Hadoop y MapReduce.”
Introducción
El crecimiento de la información actualmente implica el uso de mayores y
más potentes ordenadores y dispositivos de almacenamiento para estos
nuevos conjuntos de datos. Esta información ha crecido a un nivel tal que
no puede manejarse con los estándares y equipos utilizados para los
datos generados por las computadoras de hace unos años por lo que se
usa un nuevo termino para definirla. Al tiempo en que los datos han
crecido a esta escala se ha visto que dentro del nuevo universo de
información hay otra información generada a partir de lo acumulado.
El presente trabajo ilustra la manera de implementar una solución
económica con la tecnología existente para el manejo de información
mediante el poder combinado de varias computadoras mediante arreglos
especiales basados en tecnologías para metadas.
Introducción
El crecimiento de la información actualmente implica el uso de mayores y
más potentes ordenadores y dispositivos de almacenamiento para estos
nuevos conjuntos de datos. Esta información ha crecido a un nivel tal que
no puede manejarse con los estándares y equipos utilizados para los
datos generados por las computadoras de hace unos años por lo que se
usa un nuevo termino para definirla. Al tiempo en que los datos han
crecido a esta escala se ha visto que dentro del nuevo universo de
información hay otra información generada a partir de lo acumulado.
El presente trabajo ilustra la manera de implementar una solución
económica con la tecnología existente para el manejo de información
mediante el poder combinado de varias computadoras mediante arreglos
especiales basados en tecnologías para metadas.
Análisis del
Problema
En términos generales las organizaciones
compran equipos pero no desean invertir en
tecnologías nuevas aunque las anteriores les
hayan redituado el coste inicial. Para una
empresa es más importante invertir en publicidad
que en tecnología.
Esta falta de inversión a su vez generara una
mayor distancia entre la tecnología empleada y la
información almacenada.
Ley de Moore
La Ley de Moore señala que la
cantidad de transistores y
componentes electrónicos y por lo
tanto la capacidad de procesamiento
en un microprocesador, se
duplicaba cada dos años pero
según recientes análisis que han
realizado diversas compañías
tecnológicas y estudiosos del tema la
Ley de Moore ya no puede
cumplirse dado que se estaba
llegando al limite físico de
capacidades de reducción y
fabricación de microprocesadores.
Fin de la
Ley de Moore
El llegar a un umbral físico con la tecnología como lo anuncia el fin de la
Ley de Moore y tener necesidades cada vez más específicas y
demandantes de uso de información implica plantearse el cómo usar mejor
los recursos tecnológicos que se tienen y es ahí donde entra la aplicación
de ENTORNOS DISTRIBUIDOS, CLUSTERS y COMPUTACIÓN
PARALELA para que las empresas puedan usar sus recursos tanto
económicos como técnicos de un modo más eficiente y puedan
aprovechar mejor sus equipos, entrar al ámbito del BIGDATA y puedan
analizar, almacenar y buscar mejor su información.
Definición de
Clúster
Un Clúster (en inglés racimo) es en términos generales un agrupamiento
de computadoras y se aplica a los conjuntos o conglomerados de
ordenadores unidos entre sí por una red de alta velocidad y que se
comportan como si fuesen una única computadora..
No confundir Red de Computadoras con
Clúster de Computadoras. En la
primera las computadoras están unidas
compartiendo recursos en común y en la
segunda no solo comparten recursos en
común sino que utilizan su poder
combinado como si se tratara de un solo
equipo para el operador del sistema
Componentes de un Clúster
• Sistema operativo
• Nodos
• Sistema de almacenamiento
• Conexiones de red
• Middleware
• Ambiente de programación paralela
Beneficios
La Tecnología de Clusterizacion permitirá a las empresas y
organizaciones entrar al nuevo paradigma de los METADATOS al
incrementar su capacidad de almacenamiento, análisis y procesamiento
usando tecnología estándar y usar sus equipos de cómputo a niveles que
no se habían visto lo que puede ser posible mediante una adaptación a un
costo relativamente bajo tanto en componentes de hardware como de
software.
Sistema Operativo
CentOS
Aunque CentOS no es el único
sistema operativo derivado de Linux,
hay varias diferencias que lo hacen
único de otros sistemas operativos
basados en Linux recomendado por
características de Costo, Velocidad,
Estabilidad y Confiabilidad.
CentOS o Community ENTerprise Operating System (Sistema
Operativo Empresarial Comunitario), es un sistema operativo en base a la
estructura de Linux. Fue desarrollado para uso gratuito por la organización
CentOS Project. Como tal, depende mucho de la comunidad de usuarios
que son capaces de codificar programas y aplicaciones que se ejecutarán
en el sistema.
Sistema Operativo
CentOS
Otro sistema Linux popular es
Ubuntu, que también es reconocido
por su seguridad y tiene una
comunidad de usuarios mucho más
desarrollada que Centos o Fedora
pero CentOS es la distribución que
más se utiliza en servidores web lo
que habla de su confiabilidad.
Centos es sólo uno de muchos sistemas operativos basados en Linux
ampliamente disponibles en forma gratuita. Fedora es otro sistema Linux
basado en el sistema comercial Red Hat que da un mayor grado de
compatibilidad de software, operando como versión beta de Red Hat.
Características
CentOS
• Gratuito.
• Fácil mantenimiento
• Idoneidad para el uso a largo plazo en entornos de producción
• Entorno favorable para los usuarios y mantenedores de paquetes
• Apoyo a largo plazo de las principales aplicaciones para el servidor
• Desarrollo activo de módulos y aplicaciones
• Capacidad de convertirse en Servidor Web
• Infraestructura y respaldo de la comunidad
• Diseñado para servidores
• Seguridad y estabilidad
Requisitos CentOS
Característica Recomendación
Hardware
Sin entorno grafico
 Memoria RAM: 64MB (mínimo).
 Espacio en Disco Duro:
1 GB (mínimo) a 2 GB
(recomendado).
 Procesador: ver Arquitecturas
Hardware
Con entorno grafico y
escritorio
 Memoria RAM: 1 GB (mínimo)
 Espacio en Disco Duro:
o 20 GB mínimo a 40 GB recomendado.
Arquitecturas o
procesadores
aceptados:
 CentOS soporta casi las mismas arquitecturas
que Red Hat Enterprise Linux:
 Intel x86-compatible (32 bit)
 Intel x86-64 (64 bit).
 AMD en 32 y 64 bits
Framework
Apache Hadoop
Apache™ Hadoop® es un proyecto de software de código abierto que
habilita el procesado distribuido de grandes conjuntos de datos
estructurados, semiestructurados y no estructurados a través de clases de
servidores básicos. Diseñado para escalar desde un único servidor a miles
de máquinas, con un alto grado de tolerancia a fallas.
Apache Hadoop es un framework de
software que soporta aplicaciones
distribuidas bajo una licencia libre.
Permite a las aplicaciones trabajar con
miles de nodos y petabytes de datos.
Framework
Apache Hadoop
La arquitectura de Hadoop sigue el modelo de la arquitectura MASTER /
SLAVE siendo el Master el NAMENODE. Este nodo (Namenode) es el
más importante de la arquitectura, y controla el acceso por parte de los
clientes a la información, a la vez que gestiona el almacenamiento y
procesamiento de los datos en los DataNodes.
Los DATANODES serán los Slaves, también llamados Workers y ellos
realizaran el proceso en partes siendo asignada una parte del proceso
principal a cada uno con el Namenode controlando la operación.
Un nodo esclavo o Compute Node (nodo de cómputo) consisten en un
nodo de datos y un rastreador de tareas. Hadoop requiere tener instalados
entre nodos en el clúster Java JRE 1.6 o superior, y SSH.
Arquitectura Hadoop
Equipos usados
en el proyecto
Para el proyecto se usaran varios equipos: un servidor HP PROLIANT
DL380 propiedad del Instituto Tecnológico de la Laguna y dos equipos tipo
“caja blanca” y una laptop propiedad del ponente.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Equipos usados
Marca, modelo y tipo Características
Hewlett Packard
Servidor HP PROLIANT mod.
GL380
 2 Procesadores Intel Xeon 3.2Ghz, Memoria RAM con 4Gb
ram, Discos duros: 4 Discos duros tipo SCSI
Caja blanca 1
Pc personal
 Tarjeta madre: GIGABYTE mod. F2A68HM-H con
Microprocesador: AMD A4 ® CPU 3.00 GHz, Cores: 2
Memoria cache: 1024 kb Memoria RAM: 8.0 Gb y Disco
duro: 320 GB
Caja blanca 2
Pc personal Thikcentre modificada
 Tarjeta madre: IBM THINKCENTRE M52 LGA 775
MOTHERBOARD FRU 41X0436, Microprocesador: Intel ®
Pentium ® D CPU 2.80 GHz, Cores: 2 Memoria cache:
1024 kb Memoria RAM: 4.0 Gb y Disco duro: 500 GB
Laptop IBM Thinkcentre
 Laptop Thinkcentree mod. M52 con microprocesador
PentiumM®, con 512 Mb RAM y disco duro de 80 Gb
Instalación de
CentOS-7
Para instalarlo el primer paso es obtener el archivo .iso para generar el
medio de instalación, que puede ser el mismo archivo (para instalarlo en
un entorno virtualizado o real) o para generar un DVD o un Pen Drive (o
memoria USB). Para descargar el archivo .iso de Centos se debe ir a la
página del proyecto en http://www.centos.org.
Una vez descargado el archivo ISO de instalación este puede ser grabado
en un DVD o en una memoria flash. A continuación el equipo debe ser
“booteado” con el instalador de CentOS mostrando la pantalla (en modo
texto) inicial y en la que se puede optar por iniciar la instalación o una
verificación y hacer los pasos habituales en la instalación de una
distribución Linux.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Obtención de CentOS de pagina oficial
http://www.centos.org
Entorno JAVA
JDK
Una vez que se ha preparado el servidor donde residirá Hadoop se puede
pasar a la instalación y preparación del framework. Como se vio es
necesario contar con conocimientos Linux así como de Java. Para que
Hadoop funcione requiere de tener un entorno tanto en los equipos
maestros/servidores o en los equipos esclavos/clientes con la última
versión del JDK o Java Development Kit de Java.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Una vez realizadas estas actividades se ejecuta Hadoop a modo de
validación de la instalación, y desde un usuario con permisos de root se
procede a llamar a Hadoop pero se puede dar el caso de que se presente
el siguiente problema que es que HADOOP no puede ejecutarse porque
no puede localizar sus componentes y no puede encontrar el directorio
donde esta JAVA el cual lo requiere para trabajar.
Obtención de JAVA JDK (Java
Development Kit) de pagina ORACLE
http://www.oracle.com/technetwork/jav
a/javase/downloads/jdk8-downloads-
2133151.html
Obtención de Apache HADOOP de
pagina oficial
http://hadoop.apache.org/
Modos de ejecución de Hadoop
Modo de
Ejecución
Características
Standalone
(Solitario)
Por defecto, se configura en modo independiente
ejecutándose como un solo proceso java. No se necesita
configurar nada, Hadoop corre desde la consola y es posible usar
diferentes funciones.
Servidor -
Nodo Local
(Pseudo-
distribuido)
Un sistema basado en una arquitectura cliente-servidor,
ejecutándose en modo local y el sistema se llama a sí mismo.
Este modo es una simulación distribuida en una sola máquina.
Cada demonio como Hadoop, HDFS, MapReduce, etc. se
ejecutan como un proceso java independiente. Útil para
desarrollo.
Clúster
(Totalmente
Distribuido)
Infraestructura completa con varios nodos (físicos o virtuales)
de almacenamiento, ejecución, etc. En Modo Totalmente
Distribuido es necesario tener al menos dos o más máquinas en
red como un clúster.
Protocolo SSH
(Secure Shell)
SSH o Secure Shell, es un protocolo que existe en los sistemas Linux
para administración remota que permite a los usuarios y a los mismos
servidores controlar y modificar sus servidores remotos a través de
Internet o una red.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
SSH proporciona un
mecanismo para autenticar
un usuario remoto, transferir
entradas desde el cliente al
host y retransmitir la salida
de vuelta al cliente o entre
un nodo maestro y un nodo
esclavo.
Hadoop Distributed
File System (HDFS)
El Hadoop Distributed File System (HDFS) es un sistema de archivos
distribuido, escalable y portátil escrito en Java para el framework Hadoop
en donde cada nodo en una instancia Hadoop típicamente tiene un único
nodo de datos; un clúster de datos forma el clúster HDFS.
Esto significa que para hacer frente al desafío que es manejar grandes
volúmenes de datos, HDFS los “rompe” o divide y los distribuye dentro de
los DataNodes que c conforman el clúster y los replica.
Esta distribución considera que la información se replique en diferentes
nodos e incluso que no estén en racks o sitios físicos adyacentes a fin de
que en caso de accidente o nodo caído la información esté disponible y a
salvo y además asegura escalabilidad al ir agregando más nodos.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Hadoop Distributed
File System (HDFS)
Esta distribución considera que la información se replique en diferentes
nodos e incluso que no estén en racks o sitios físicos adyacentes a fin de
que en caso de accidente o nodo caído la información esté disponible y a
salvo y además asegura escalabilidad al ir agregando más nodos.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Hadoop Distributed
File System (HDFS)
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Procesos
MapReduce
MapReduce es el componente encargado del procesamiento de Apache
Hadoop. Consiste en un framework de programación que trabaja sobre el
sistema de ficheros HDFS y se basa en el uso de dos tipos de funciones
principales:
•MAP o Mapeo. “Divide y vencerás”. Una tarea la divide en
subtareas y a su vez estas las reparte para su procesamiento en
los distintos nodos del clúster.
•REDUCE o Reducción. “Combina y reduce la cardinalidad”. Aquí
se recogen las distintas sobrexpuestas o subresultados realizadas
en las diferentes subtareas que se han hecho en cada nodo y las
vuelve a agrupar para tener una respuesta final.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Carpeta Contenido
/bin Contiene una serie de programas y scripts binarios ejecutables que nos permitirán trabajar con
Hadoop siendo los mas importantes el propiamente dicho Hadoop, el manejador HDFS, MapReduce
y el navegador Yarn
/etc Contiene los ficheros de configuración del entorno Hadoop
/include Contiene archivos cabecera para uso de Hadoop y programacion
/lib Es una carpeta que tiene librerías nativas usadas para hacer la ejecución de los procesos de un
modo mas eficiente y veloz
/libexec Contiene ficheros de configuración de Hadoop
/sbin Tiene los scripts y programas que permiten levantar los servicios, utilidades de ayuda para Yarn y
Hadoop
/share En esta carpeta esta contenida todas las librerías y componentes asi como ejemplos para modificar y
a modo de tutorial
Procesos
MapReduce
MapReduce es el componente encargado del procesamiento de Apache
Hadoop. Consiste en un framework de programación que trabaja sobre el
sistema de ficheros HDFS y se basa en el uso de dos tipos de funciones
principales:
•MAP o Mapeo. “Divide y vencerás”. Una tarea la divide en
subtareas y a su vez estas las reparte para su procesamiento en
los distintos nodos del clúster.
•REDUCE o Reducción. “Combina y reduce la cardinalidad”. Aquí
se recogen las distintas sobrexpuestas o subresultados realizadas
en las diferentes subtareas que se han hecho en cada nodo y las
vuelve a agrupar para tener una respuesta final.
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
Caso de aplicación
En una empresa paraestatal que tiene un
departamento destinado a la cobranza se tiene el
inconveniente de que en ocasiones ocurren
reclamaciones o aclaraciones sobre cobros hechos
ya sea por ser indebidos o por buscar una
condonación o aclaración de alguna situación.
Dichas reclamaciones deben ser atendidas y el
proceso de búsqueda debe realizarse en diversos
fuentes. El problema es que las fuentes de
información (reportes, listados, impresos, cd’s, etc.)
están dispersas y la búsqueda se hace de manera
manual pero se tiene un respaldo enorme que data
de varios años cuyos archivos están en diversos
formatos (.txt. .doc. pdf, etc). .
Aplicacion con
Hadoop y MapReduce
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
La idea propuesta es hacer que Hadoop y sus procesos Map Reduce busquen a
la empresa o persona solicitante dentro del conjunto de archivos para ayudar en
el proceso de reclamación/aclaración y ahorrar tiempo.
Se usara una utilería llamada GREP que es parte de los procesos MapReduce la
cual permite localizar o contar si una determinada cadena, palabra o palabras
están dentro de uno o varios archivos.
El comando GREP, al igual que su equivalente en SQL y otros lenguajes lo que
hace es buscar dentro de un conjunto de archivos ubicados en un directorio las
ocurrencias un dato mediante un proceso MAP-REDUCE y depositara un
informe de las búsquedas en una carpeta especificada.
Prueba de Hadoop
y MapReduce
tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
En una carpeta ubicada en raíz /tmp se creara una carpeta ORIGEN (de datos) la
que se denominara /entrada en donde se depositaran los archivos objetivo del
GREP y se crea también una carpeta DESTINO, donde se depositan los
resultados llamada /salida en donde se grabaran y registraran lo obtenido del
proceso GREP MAP-REDUCE.
Ya teniendo el material inicial para que trabaje el proceso se ejecuta el comando
GREP ubicado dentro del archivo .JAR de HADOOP el cual analizara el
contenido del directorio y examinara cada uno de los archivos que se le pusieron
buscando la cadena “KMS” que se encuentra al inicio de cualquier palabra en los
archivos indicando en donde esta así como otras cifras y datos relativos al
proceso.
CONCLUSIONES
Hadoop tiene un potencial enorme en empresas que
manejan archivos de diversa procedencia y en grandes
cantidades en el que importa mucho su clasificación
histórica siendo posible para su manejo la
implementación de un clúster.
El tener esta capacidad le permitirá a una empresa
formar su propio Datawarehouse y contar con una
plataforma para almacenar y procesar datos de
diferentes esquemas, formatos etc., para soportar
diferentes casos de uso y niveles de investigación.
GRACIAS
POR SU ATENCION
Presento:
Ing. Fernando Alfonso Casas De la Torre
Instituto Tecnológico de La Laguna
División de Estudios de Posgrado e Investigación
Contacto:
fernando_casas69@hotmail.com
Universidad
Nova Spania
Articulo MRL0580. Volumen online con ISSN 1946-5351, Vol. 11, No. 2, 2019, e indización en Fuente Académica Plus de EBSCO
Libro digital ebook Investigación en la Educación Superior: Morelia 2019 con ISBN 978-1-939982-48-3 online

Weitere ähnliche Inhalte

Was ist angesagt? (14)

Python - Lenguaje de programación para Ciencia de Datos
Python - Lenguaje de programación para Ciencia de DatosPython - Lenguaje de programación para Ciencia de Datos
Python - Lenguaje de programación para Ciencia de Datos
 
Diapositiva arquitectura del computador
Diapositiva arquitectura del computadorDiapositiva arquitectura del computador
Diapositiva arquitectura del computador
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con Cloudera
 
ActIVIDAD 1 BASES DE DATOS
ActIVIDAD 1 BASES DE DATOSActIVIDAD 1 BASES DE DATOS
ActIVIDAD 1 BASES DE DATOS
 
Taller n0 1_introduccion_bases_de_datos
Taller n0 1_introduccion_bases_de_datosTaller n0 1_introduccion_bases_de_datos
Taller n0 1_introduccion_bases_de_datos
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Programas de Bases de datos
Programas de Bases de datosProgramas de Bases de datos
Programas de Bases de datos
 
Hadoop
HadoopHadoop
Hadoop
 
HDFS
HDFSHDFS
HDFS
 
Cent os_
 Cent os_ Cent os_
Cent os_
 
Diccionario Informático
Diccionario InformáticoDiccionario Informático
Diccionario Informático
 
GLOSARIO
GLOSARIOGLOSARIO
GLOSARIO
 
Sistema de archivos
Sistema de archivosSistema de archivos
Sistema de archivos
 

Ähnlich wie Academy Journal Morelia 2018

presentation GRID
presentation GRIDpresentation GRID
presentation GRIDchabal
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentesmaximo coconi torres
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentesguestb3ee5c
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentesmaximo coconi torres
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentesmaximo coconi torres
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 
Bases teóricas
Bases teóricasBases teóricas
Bases teóricasluisperoza
 

Ähnlich wie Academy Journal Morelia 2018 (20)

presentation GRID
presentation GRIDpresentation GRID
presentation GRID
 
Estudio de factibilidad
Estudio de factibilidadEstudio de factibilidad
Estudio de factibilidad
 
Smbd (2)
Smbd (2)Smbd (2)
Smbd (2)
 
Smbd (2)
Smbd (2)Smbd (2)
Smbd (2)
 
Smb Dfin
Smb DfinSmb Dfin
Smb Dfin
 
Clusters
ClustersClusters
Clusters
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Bases teóricas
Bases teóricasBases teóricas
Bases teóricas
 
Actividad 6
Actividad 6Actividad 6
Actividad 6
 
Actividad 6
Actividad 6Actividad 6
Actividad 6
 
Actividad 6
Actividad 6Actividad 6
Actividad 6
 
Mp mardoqueo so1
Mp mardoqueo so1Mp mardoqueo so1
Mp mardoqueo so1
 
BigData
BigDataBigData
BigData
 
Grid Computing
Grid ComputingGrid Computing
Grid Computing
 

Mehr von Fernando Alfonso Casas De la Torre

Congreso Internacional de Investigacion Universidad Cortazar 2018
Congreso Internacional de Investigacion Universidad Cortazar 2018Congreso Internacional de Investigacion Universidad Cortazar 2018
Congreso Internacional de Investigacion Universidad Cortazar 2018Fernando Alfonso Casas De la Torre
 
Relación universidad-gobierno: caso de remodelación de una dependencia federal
Relación universidad-gobierno:  caso de remodelación  de una dependencia federalRelación universidad-gobierno:  caso de remodelación  de una dependencia federal
Relación universidad-gobierno: caso de remodelación de una dependencia federalFernando Alfonso Casas De la Torre
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 

Mehr von Fernando Alfonso Casas De la Torre (20)

Mi Cascarita Proyecto Colibri.ppt
Mi Cascarita Proyecto Colibri.pptMi Cascarita Proyecto Colibri.ppt
Mi Cascarita Proyecto Colibri.ppt
 
Proyecto enlace WiFi Comunidades rurales
Proyecto enlace WiFi Comunidades ruralesProyecto enlace WiFi Comunidades rurales
Proyecto enlace WiFi Comunidades rurales
 
Congreso Academy Journal Tepic 2019
Congreso Academy Journal Tepic 2019Congreso Academy Journal Tepic 2019
Congreso Academy Journal Tepic 2019
 
Congreso Internacional de Investigacion Universidad Cortazar 2018
Congreso Internacional de Investigacion Universidad Cortazar 2018Congreso Internacional de Investigacion Universidad Cortazar 2018
Congreso Internacional de Investigacion Universidad Cortazar 2018
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
IMSS Informatica Actividades 2014 enfriamiento de site
IMSS Informatica Actividades 2014 enfriamiento de siteIMSS Informatica Actividades 2014 enfriamiento de site
IMSS Informatica Actividades 2014 enfriamiento de site
 
Historia de las Videoconsolas
Historia de las VideoconsolasHistoria de las Videoconsolas
Historia de las Videoconsolas
 
Relación universidad-gobierno: caso de remodelación de una dependencia federal
Relación universidad-gobierno:  caso de remodelación  de una dependencia federalRelación universidad-gobierno:  caso de remodelación  de una dependencia federal
Relación universidad-gobierno: caso de remodelación de una dependencia federal
 
Teorema de Naives Bayes
Teorema de Naives BayesTeorema de Naives Bayes
Teorema de Naives Bayes
 
Analisis de incendios forestales mediante WEKA
Analisis de incendios forestales mediante WEKAAnalisis de incendios forestales mediante WEKA
Analisis de incendios forestales mediante WEKA
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Patron observador
Patron observadorPatron observador
Patron observador
 
Replicación de Bases de Datos con SQL Server 2008
Replicación de Bases de Datos con SQL Server 2008Replicación de Bases de Datos con SQL Server 2008
Replicación de Bases de Datos con SQL Server 2008
 
Patron Singleton
Patron SingletonPatron Singleton
Patron Singleton
 
Incorporacion a la Seguridad Social
Incorporacion a la Seguridad SocialIncorporacion a la Seguridad Social
Incorporacion a la Seguridad Social
 
Plan de Contingencia Informatico
Plan de Contingencia InformaticoPlan de Contingencia Informatico
Plan de Contingencia Informatico
 
Contingencia Informatica
Contingencia InformaticaContingencia Informatica
Contingencia Informatica
 
Las 10 leyes de la Seguridad Informatica
Las 10 leyes de la Seguridad InformaticaLas 10 leyes de la Seguridad Informatica
Las 10 leyes de la Seguridad Informatica
 
Comercializacion de un producto
Comercializacion de un productoComercializacion de un producto
Comercializacion de un producto
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 

Kürzlich hochgeladen

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 

Kürzlich hochgeladen (10)

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 

Academy Journal Morelia 2018

  • 1. Implementación de un clúster de alta disponibilidad para aplicaciones administrativas mediante multiproceso Presenta: Ing. Fernando Alfonso Casas De la Torre Instituto Tecnológico de La Laguna División de Estudios de Posgrado e Investigación Articulo MRL0580. Volumen online con ISSN 1946-5351, Vol. 11, No. 2, 2019, e indización en Fuente Académica Plus de EBSCO Libro digital ebook Investigación en la Educación Superior: Morelia 2019 con ISBN 978-1-939982-48-3 online Universidad Nova Spania
  • 2. Resumen Articulo MRL0580 “Se muestra la creación de una plataforma de alto rendimiento a bajo costo con equipos de cómputo estándar para crear una plataforma para procesamiento y análisis de metadatos con multiproceso que apoya en la búsqueda de información para obtención de soluciones y toma de decisiones para investigación, escuelas, empresas y negocios mostrando las ventajas de usar un clúster de alta disponibilidad con Apache Hadoop y MapReduce.”
  • 3. Introducción El crecimiento de la información actualmente implica el uso de mayores y más potentes ordenadores y dispositivos de almacenamiento para estos nuevos conjuntos de datos. Esta información ha crecido a un nivel tal que no puede manejarse con los estándares y equipos utilizados para los datos generados por las computadoras de hace unos años por lo que se usa un nuevo termino para definirla. Al tiempo en que los datos han crecido a esta escala se ha visto que dentro del nuevo universo de información hay otra información generada a partir de lo acumulado. El presente trabajo ilustra la manera de implementar una solución económica con la tecnología existente para el manejo de información mediante el poder combinado de varias computadoras mediante arreglos especiales basados en tecnologías para metadas.
  • 4. Introducción El crecimiento de la información actualmente implica el uso de mayores y más potentes ordenadores y dispositivos de almacenamiento para estos nuevos conjuntos de datos. Esta información ha crecido a un nivel tal que no puede manejarse con los estándares y equipos utilizados para los datos generados por las computadoras de hace unos años por lo que se usa un nuevo termino para definirla. Al tiempo en que los datos han crecido a esta escala se ha visto que dentro del nuevo universo de información hay otra información generada a partir de lo acumulado. El presente trabajo ilustra la manera de implementar una solución económica con la tecnología existente para el manejo de información mediante el poder combinado de varias computadoras mediante arreglos especiales basados en tecnologías para metadas.
  • 5. Análisis del Problema En términos generales las organizaciones compran equipos pero no desean invertir en tecnologías nuevas aunque las anteriores les hayan redituado el coste inicial. Para una empresa es más importante invertir en publicidad que en tecnología. Esta falta de inversión a su vez generara una mayor distancia entre la tecnología empleada y la información almacenada.
  • 6. Ley de Moore La Ley de Moore señala que la cantidad de transistores y componentes electrónicos y por lo tanto la capacidad de procesamiento en un microprocesador, se duplicaba cada dos años pero según recientes análisis que han realizado diversas compañías tecnológicas y estudiosos del tema la Ley de Moore ya no puede cumplirse dado que se estaba llegando al limite físico de capacidades de reducción y fabricación de microprocesadores.
  • 7. Fin de la Ley de Moore El llegar a un umbral físico con la tecnología como lo anuncia el fin de la Ley de Moore y tener necesidades cada vez más específicas y demandantes de uso de información implica plantearse el cómo usar mejor los recursos tecnológicos que se tienen y es ahí donde entra la aplicación de ENTORNOS DISTRIBUIDOS, CLUSTERS y COMPUTACIÓN PARALELA para que las empresas puedan usar sus recursos tanto económicos como técnicos de un modo más eficiente y puedan aprovechar mejor sus equipos, entrar al ámbito del BIGDATA y puedan analizar, almacenar y buscar mejor su información.
  • 8. Definición de Clúster Un Clúster (en inglés racimo) es en términos generales un agrupamiento de computadoras y se aplica a los conjuntos o conglomerados de ordenadores unidos entre sí por una red de alta velocidad y que se comportan como si fuesen una única computadora.. No confundir Red de Computadoras con Clúster de Computadoras. En la primera las computadoras están unidas compartiendo recursos en común y en la segunda no solo comparten recursos en común sino que utilizan su poder combinado como si se tratara de un solo equipo para el operador del sistema
  • 9. Componentes de un Clúster • Sistema operativo • Nodos • Sistema de almacenamiento • Conexiones de red • Middleware • Ambiente de programación paralela
  • 10. Beneficios La Tecnología de Clusterizacion permitirá a las empresas y organizaciones entrar al nuevo paradigma de los METADATOS al incrementar su capacidad de almacenamiento, análisis y procesamiento usando tecnología estándar y usar sus equipos de cómputo a niveles que no se habían visto lo que puede ser posible mediante una adaptación a un costo relativamente bajo tanto en componentes de hardware como de software.
  • 11. Sistema Operativo CentOS Aunque CentOS no es el único sistema operativo derivado de Linux, hay varias diferencias que lo hacen único de otros sistemas operativos basados en Linux recomendado por características de Costo, Velocidad, Estabilidad y Confiabilidad. CentOS o Community ENTerprise Operating System (Sistema Operativo Empresarial Comunitario), es un sistema operativo en base a la estructura de Linux. Fue desarrollado para uso gratuito por la organización CentOS Project. Como tal, depende mucho de la comunidad de usuarios que son capaces de codificar programas y aplicaciones que se ejecutarán en el sistema.
  • 12. Sistema Operativo CentOS Otro sistema Linux popular es Ubuntu, que también es reconocido por su seguridad y tiene una comunidad de usuarios mucho más desarrollada que Centos o Fedora pero CentOS es la distribución que más se utiliza en servidores web lo que habla de su confiabilidad. Centos es sólo uno de muchos sistemas operativos basados en Linux ampliamente disponibles en forma gratuita. Fedora es otro sistema Linux basado en el sistema comercial Red Hat que da un mayor grado de compatibilidad de software, operando como versión beta de Red Hat.
  • 13. Características CentOS • Gratuito. • Fácil mantenimiento • Idoneidad para el uso a largo plazo en entornos de producción • Entorno favorable para los usuarios y mantenedores de paquetes • Apoyo a largo plazo de las principales aplicaciones para el servidor • Desarrollo activo de módulos y aplicaciones • Capacidad de convertirse en Servidor Web • Infraestructura y respaldo de la comunidad • Diseñado para servidores • Seguridad y estabilidad
  • 14. Requisitos CentOS Característica Recomendación Hardware Sin entorno grafico  Memoria RAM: 64MB (mínimo).  Espacio en Disco Duro: 1 GB (mínimo) a 2 GB (recomendado).  Procesador: ver Arquitecturas Hardware Con entorno grafico y escritorio  Memoria RAM: 1 GB (mínimo)  Espacio en Disco Duro: o 20 GB mínimo a 40 GB recomendado. Arquitecturas o procesadores aceptados:  CentOS soporta casi las mismas arquitecturas que Red Hat Enterprise Linux:  Intel x86-compatible (32 bit)  Intel x86-64 (64 bit).  AMD en 32 y 64 bits
  • 15. Framework Apache Hadoop Apache™ Hadoop® es un proyecto de software de código abierto que habilita el procesado distribuido de grandes conjuntos de datos estructurados, semiestructurados y no estructurados a través de clases de servidores básicos. Diseñado para escalar desde un único servidor a miles de máquinas, con un alto grado de tolerancia a fallas. Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos.
  • 16. Framework Apache Hadoop La arquitectura de Hadoop sigue el modelo de la arquitectura MASTER / SLAVE siendo el Master el NAMENODE. Este nodo (Namenode) es el más importante de la arquitectura, y controla el acceso por parte de los clientes a la información, a la vez que gestiona el almacenamiento y procesamiento de los datos en los DataNodes. Los DATANODES serán los Slaves, también llamados Workers y ellos realizaran el proceso en partes siendo asignada una parte del proceso principal a cada uno con el Namenode controlando la operación. Un nodo esclavo o Compute Node (nodo de cómputo) consisten en un nodo de datos y un rastreador de tareas. Hadoop requiere tener instalados entre nodos en el clúster Java JRE 1.6 o superior, y SSH.
  • 18. Equipos usados en el proyecto Para el proyecto se usaran varios equipos: un servidor HP PROLIANT DL380 propiedad del Instituto Tecnológico de la Laguna y dos equipos tipo “caja blanca” y una laptop propiedad del ponente. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 19. Equipos usados Marca, modelo y tipo Características Hewlett Packard Servidor HP PROLIANT mod. GL380  2 Procesadores Intel Xeon 3.2Ghz, Memoria RAM con 4Gb ram, Discos duros: 4 Discos duros tipo SCSI Caja blanca 1 Pc personal  Tarjeta madre: GIGABYTE mod. F2A68HM-H con Microprocesador: AMD A4 ® CPU 3.00 GHz, Cores: 2 Memoria cache: 1024 kb Memoria RAM: 8.0 Gb y Disco duro: 320 GB Caja blanca 2 Pc personal Thikcentre modificada  Tarjeta madre: IBM THINKCENTRE M52 LGA 775 MOTHERBOARD FRU 41X0436, Microprocesador: Intel ® Pentium ® D CPU 2.80 GHz, Cores: 2 Memoria cache: 1024 kb Memoria RAM: 4.0 Gb y Disco duro: 500 GB Laptop IBM Thinkcentre  Laptop Thinkcentree mod. M52 con microprocesador PentiumM®, con 512 Mb RAM y disco duro de 80 Gb
  • 20. Instalación de CentOS-7 Para instalarlo el primer paso es obtener el archivo .iso para generar el medio de instalación, que puede ser el mismo archivo (para instalarlo en un entorno virtualizado o real) o para generar un DVD o un Pen Drive (o memoria USB). Para descargar el archivo .iso de Centos se debe ir a la página del proyecto en http://www.centos.org. Una vez descargado el archivo ISO de instalación este puede ser grabado en un DVD o en una memoria flash. A continuación el equipo debe ser “booteado” con el instalador de CentOS mostrando la pantalla (en modo texto) inicial y en la que se puede optar por iniciar la instalación o una verificación y hacer los pasos habituales en la instalación de una distribución Linux. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 21. Obtención de CentOS de pagina oficial http://www.centos.org
  • 22. Entorno JAVA JDK Una vez que se ha preparado el servidor donde residirá Hadoop se puede pasar a la instalación y preparación del framework. Como se vio es necesario contar con conocimientos Linux así como de Java. Para que Hadoop funcione requiere de tener un entorno tanto en los equipos maestros/servidores o en los equipos esclavos/clientes con la última versión del JDK o Java Development Kit de Java. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3 Una vez realizadas estas actividades se ejecuta Hadoop a modo de validación de la instalación, y desde un usuario con permisos de root se procede a llamar a Hadoop pero se puede dar el caso de que se presente el siguiente problema que es que HADOOP no puede ejecutarse porque no puede localizar sus componentes y no puede encontrar el directorio donde esta JAVA el cual lo requiere para trabajar.
  • 23. Obtención de JAVA JDK (Java Development Kit) de pagina ORACLE http://www.oracle.com/technetwork/jav a/javase/downloads/jdk8-downloads- 2133151.html
  • 24. Obtención de Apache HADOOP de pagina oficial http://hadoop.apache.org/
  • 25. Modos de ejecución de Hadoop Modo de Ejecución Características Standalone (Solitario) Por defecto, se configura en modo independiente ejecutándose como un solo proceso java. No se necesita configurar nada, Hadoop corre desde la consola y es posible usar diferentes funciones. Servidor - Nodo Local (Pseudo- distribuido) Un sistema basado en una arquitectura cliente-servidor, ejecutándose en modo local y el sistema se llama a sí mismo. Este modo es una simulación distribuida en una sola máquina. Cada demonio como Hadoop, HDFS, MapReduce, etc. se ejecutan como un proceso java independiente. Útil para desarrollo. Clúster (Totalmente Distribuido) Infraestructura completa con varios nodos (físicos o virtuales) de almacenamiento, ejecución, etc. En Modo Totalmente Distribuido es necesario tener al menos dos o más máquinas en red como un clúster.
  • 26. Protocolo SSH (Secure Shell) SSH o Secure Shell, es un protocolo que existe en los sistemas Linux para administración remota que permite a los usuarios y a los mismos servidores controlar y modificar sus servidores remotos a través de Internet o una red. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3 SSH proporciona un mecanismo para autenticar un usuario remoto, transferir entradas desde el cliente al host y retransmitir la salida de vuelta al cliente o entre un nodo maestro y un nodo esclavo.
  • 27.
  • 28. Hadoop Distributed File System (HDFS) El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop en donde cada nodo en una instancia Hadoop típicamente tiene un único nodo de datos; un clúster de datos forma el clúster HDFS. Esto significa que para hacer frente al desafío que es manejar grandes volúmenes de datos, HDFS los “rompe” o divide y los distribuye dentro de los DataNodes que c conforman el clúster y los replica. Esta distribución considera que la información se replique en diferentes nodos e incluso que no estén en racks o sitios físicos adyacentes a fin de que en caso de accidente o nodo caído la información esté disponible y a salvo y además asegura escalabilidad al ir agregando más nodos. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 29. Hadoop Distributed File System (HDFS) Esta distribución considera que la información se replique en diferentes nodos e incluso que no estén en racks o sitios físicos adyacentes a fin de que en caso de accidente o nodo caído la información esté disponible y a salvo y además asegura escalabilidad al ir agregando más nodos. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 30. Hadoop Distributed File System (HDFS) tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 31. Procesos MapReduce MapReduce es el componente encargado del procesamiento de Apache Hadoop. Consiste en un framework de programación que trabaja sobre el sistema de ficheros HDFS y se basa en el uso de dos tipos de funciones principales: •MAP o Mapeo. “Divide y vencerás”. Una tarea la divide en subtareas y a su vez estas las reparte para su procesamiento en los distintos nodos del clúster. •REDUCE o Reducción. “Combina y reduce la cardinalidad”. Aquí se recogen las distintas sobrexpuestas o subresultados realizadas en las diferentes subtareas que se han hecho en cada nodo y las vuelve a agrupar para tener una respuesta final. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 32. Carpeta Contenido /bin Contiene una serie de programas y scripts binarios ejecutables que nos permitirán trabajar con Hadoop siendo los mas importantes el propiamente dicho Hadoop, el manejador HDFS, MapReduce y el navegador Yarn /etc Contiene los ficheros de configuración del entorno Hadoop /include Contiene archivos cabecera para uso de Hadoop y programacion /lib Es una carpeta que tiene librerías nativas usadas para hacer la ejecución de los procesos de un modo mas eficiente y veloz /libexec Contiene ficheros de configuración de Hadoop /sbin Tiene los scripts y programas que permiten levantar los servicios, utilidades de ayuda para Yarn y Hadoop /share En esta carpeta esta contenida todas las librerías y componentes asi como ejemplos para modificar y a modo de tutorial
  • 33. Procesos MapReduce MapReduce es el componente encargado del procesamiento de Apache Hadoop. Consiste en un framework de programación que trabaja sobre el sistema de ficheros HDFS y se basa en el uso de dos tipos de funciones principales: •MAP o Mapeo. “Divide y vencerás”. Una tarea la divide en subtareas y a su vez estas las reparte para su procesamiento en los distintos nodos del clúster. •REDUCE o Reducción. “Combina y reduce la cardinalidad”. Aquí se recogen las distintas sobrexpuestas o subresultados realizadas en las diferentes subtareas que se han hecho en cada nodo y las vuelve a agrupar para tener una respuesta final. tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3
  • 34. Caso de aplicación En una empresa paraestatal que tiene un departamento destinado a la cobranza se tiene el inconveniente de que en ocasiones ocurren reclamaciones o aclaraciones sobre cobros hechos ya sea por ser indebidos o por buscar una condonación o aclaración de alguna situación. Dichas reclamaciones deben ser atendidas y el proceso de búsqueda debe realizarse en diversos fuentes. El problema es que las fuentes de información (reportes, listados, impresos, cd’s, etc.) están dispersas y la búsqueda se hace de manera manual pero se tiene un respaldo enorme que data de varios años cuyos archivos están en diversos formatos (.txt. .doc. pdf, etc). .
  • 35. Aplicacion con Hadoop y MapReduce tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3 La idea propuesta es hacer que Hadoop y sus procesos Map Reduce busquen a la empresa o persona solicitante dentro del conjunto de archivos para ayudar en el proceso de reclamación/aclaración y ahorrar tiempo. Se usara una utilería llamada GREP que es parte de los procesos MapReduce la cual permite localizar o contar si una determinada cadena, palabra o palabras están dentro de uno o varios archivos. El comando GREP, al igual que su equivalente en SQL y otros lenguajes lo que hace es buscar dentro de un conjunto de archivos ubicados en un directorio las ocurrencias un dato mediante un proceso MAP-REDUCE y depositara un informe de las búsquedas en una carpeta especificada.
  • 36. Prueba de Hadoop y MapReduce tanto a razones de presupuesto, cuestiones de disponibilidad y tiempo y demostrar la viabilidad de adaptación para implementar un clúster con equipos genéricos (vea figura 3 En una carpeta ubicada en raíz /tmp se creara una carpeta ORIGEN (de datos) la que se denominara /entrada en donde se depositaran los archivos objetivo del GREP y se crea también una carpeta DESTINO, donde se depositan los resultados llamada /salida en donde se grabaran y registraran lo obtenido del proceso GREP MAP-REDUCE. Ya teniendo el material inicial para que trabaje el proceso se ejecuta el comando GREP ubicado dentro del archivo .JAR de HADOOP el cual analizara el contenido del directorio y examinara cada uno de los archivos que se le pusieron buscando la cadena “KMS” que se encuentra al inicio de cualquier palabra en los archivos indicando en donde esta así como otras cifras y datos relativos al proceso.
  • 37.
  • 38. CONCLUSIONES Hadoop tiene un potencial enorme en empresas que manejan archivos de diversa procedencia y en grandes cantidades en el que importa mucho su clasificación histórica siendo posible para su manejo la implementación de un clúster. El tener esta capacidad le permitirá a una empresa formar su propio Datawarehouse y contar con una plataforma para almacenar y procesar datos de diferentes esquemas, formatos etc., para soportar diferentes casos de uso y niveles de investigación.
  • 39. GRACIAS POR SU ATENCION Presento: Ing. Fernando Alfonso Casas De la Torre Instituto Tecnológico de La Laguna División de Estudios de Posgrado e Investigación Contacto: fernando_casas69@hotmail.com Universidad Nova Spania Articulo MRL0580. Volumen online con ISSN 1946-5351, Vol. 11, No. 2, 2019, e indización en Fuente Académica Plus de EBSCO Libro digital ebook Investigación en la Educación Superior: Morelia 2019 con ISBN 978-1-939982-48-3 online