SlideShare ist ein Scribd-Unternehmen logo
1 von 55
Taller:
“Monta una infraestructura Big Data para
tu Empresa”
Urko Zurutuza
Dpto. Electrónica e Informática
Mondragon Goi Eskola Politeknikoa JMA
Mondragon Unibertsitatea
Agenda
• Día 1: Introducción al Big Data
• Día 2: Instalación de un cluster
Cloudera
• Día 3: Ejercicios sobre Cloudera
Índice
1. Requisitos
2. Consideraciones de Red y de Seguridad
3. Instalación
4. Instalando Cloudera Manager
5. Cloudera Manager
Requisitos
Sistemas Operativos
• RHEL, CentOS (5.7 64 bit, 6.4 64 bit, 6.4 en
modo Selinux, 6.5, 64 bit)
• Oracle Enterprise Linux with default kernel
and Unbreakable Enterprise Kernel, 64-bit
(5.6 (UEK R2), 6.4 (UEK R2), 6.5 (UEK R2,
UEK R3))
• SUSE Linux Enterprise Server 11, 64-bit
• Debian - Wheezy (7.0 and 7.1), Squeeze
(6.0) (deprecated), 64-bit
• Ubuntu - Trusty (14.04), Precise (12.04),
Lucid (10.04) (deprecated), 64-bit
JDK (Java Development Kit)
• Cloudera Manager:
– Oracle JDK 1.8.0_11
– Oracle JDK 1.7.0_67
– Oracle JDK 1.6.0_31
• Cloudera Manager debe estar ejecutado sobre una
versión JDK soportada por todos los clusters Hadoop
que gestiona. Ejemplo:
– Cloudera Manager 5 sobre la versión 1.6 de JDK solo
podrá gestionar clusters de CDH4.
– Para gestionar clusters CDH5 se necesita la versión 1.7 de
JDK.
– Si se desean gestionar clusters de CDH4 y CDH5 de forma
simultánea con Cloudera Manager 5, se deberá urilizar la
versión 1.7 de JDK.
Navegadores
• La Consola de Administración de Cloudera
Manager, la cual se utiliza para la
instalación, configuración, gestión y
monitorización de servicios, está soportada
por:
– Mozilla Firefox 11 y superiores
– Google Chrome
– Internet Explorer 9 y superiores
– Safari 5 y superiores
Bases de Datos
• Cloudera Manager Server almacena información sobre
los servicios configurados, la asignación de roles, un
histórico de la configuración, comandos, usuarios, y
procesos en ejecución en una base de datos propia.
• Cloudera Manager y los servicios que los soportan
pueden hacer uso de las siguientes bases de datos:
– MySQL - 5.0, 5.1, 5.5, y 5.6
– Oracle 11gR2
– PostgreSQL - 8.4, 9.1, 9.2, y 9.3
• Cloudera soporta las versiones de MySQL y PostgreSQL
que incluyen las distribuciones Linux en sus
instalaciones.
Espacio en Disco
• Cloudera Manager Server:
– 5 GB en la partición /var.
– 500 MB en la partición /usr.
– Para el uso de “parcels”, el espacio requerido depende del número de
“parcelas” que se descarguen a Cloudera Manger y se distribuyan a los
agentes. Ejemplo:
• CDH 4.6 - 700 MB por parcel;
• CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB
por parcel (desempaquetado)
• Cloudera Impala - 200 MB por parcel
• Cloudera Search - 400 MB por parcel
• Cloudera Management Service – Las bases de datos de
monitorización se almacenan sobre la partición /var. Se recomienda
asegurar al menos 20 GB en esta partición.
• Agentes – Cada “parcel” desempaquetado requiere en los agentes
unas 3 veces el espacio del “parcel” descargado en Cloudera
Manager Server.
Espacio en Disco
• Cloudera Manager Server:
– 5 GB en la partición /var.
– 500 MB en la partición /usr.
– Para el uso de “parcels”, el espacio requerido depende del número de
“parcelas” que se descarguen a Cloudera Manger y se distribuyan a los
agentes. Ejemplo:
• CDH 4.6 - 700 MB por parcel;
• CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB
por parcel (desempaquetado)
• Cloudera Impala - 200 MB por parcel
• Cloudera Search - 400 MB por parcel
• Cloudera Management Service – Las bases de datos de
monitorización se almacenan sobre la partición /var. Se recomienda
asegurar al menos 20 GB en esta partición.
• Agentes – Cada “parcel” desempaquetado requiere en los agentes
unas 3 veces el espacio del “parcel” descargado en Cloudera
Manager Server.
Memoria RAM
• Se recomiendan 4 GB para la mayoría de los
casos, siendo esto un requisito en el caso que
se use una base de datos Oracle.
• En caso contrario y en una instalación de
menos de 100 hosts, podría ser suficiente con
2 GB.
• Es conveniente reducir la cantidad máxima de
memoria que usa Cloudera Manager Server
para sus servicios Java.
Python
• Cloudera Manager, CDH5 y HUE
funcionan sobre Python 2.6 o 2.7
Consideraciones de Red y Seguridad
Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• Direccionamiento IP asignado de forma
estática
• Fichero /etc/hosts correctamente
formateado. Debe:
– Contener información persistente sobre los
nombres de los equipos y direcciones IP de
los nodos
– No debe contener nombres que contengan
mayúsculas
– No debe contener direcciones IP duplicadas
Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• En la mayoría de los casos, Cloudera
Manager Server deberá tener acceso SSH a
los equipos del cluster para poder realizar la
instalación y despliegue de servicios.
• Además, se deberá proveer del usuario y
credencial de root, o proveer de un usuario
con permiso “sudo” sin que se pida la
contraseña.
• Una vez finalizada la instalación, se puede
cambiar la contraseña de root, o deshabilitar
el requisito anterior.
Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• Asegurar que Security-Enhanced Linux
(SELinux) no bloquea ningún servicio o
acceso.
• IPv6 debe estar deshabilitado.
• Asegurarnos que no se están bloqueando
puertos mediante iptables o algún otro tipo de
firewall. El puerto 7189 debe estar accesible
una vez termine la instalación. El propio
Cloudera Manager recomienda en su
documentación los puertos que deben estar
abiertos.
Instalación
Tipos de Instalación de Cloudera
Manager
• Un despliegue de Cloudera Manager
consiste en los siguientes componentes
Software:
– Oracle JDK
– Cloudera Manager Server y los paquetes
Agentes
– Software de base de datos que de soporte
– CDH y el software de servicios gestionados
Tipos de Instalación de Cloudera
Manager
• Despliegues de demostración y pruebas de
concepto totalmente automatizada:
– Oracle JDK,
– Cloudera Manager Server,
– PostgreSQL embebida,
– Cloudera Manager Agent,
– CDH,
– software de servicios gestionados en los hosts del
cluster.
– Además, configura las bases de datos de Cloudera
Manager Server y Hive.
Tipos de Instalación de Cloudera
Manager
• Despliegues de demostración y pruebas de
concepto totalmente automatizados
– Recomendada para pruebas de concepto y
demostraciones. No para despliegues de producción.
– Este sistema no está pensado para poder escalar las
bases de datos en el caso de que el cluster crezca
mucho.
– Los requisitos previos para esta instalación son:
• Darle la opción de abrir sesión en el host de Cloudera
Manager Server utilizando una cuenta root o una cuenta
donde el usuario tenga permisos sudo sin requerir la
contraseña.
• Permitir que Cloudera Manager Server tenga acceso uniforme
a SSH en todos los hosts del cluster.
• Todos los hosts deberán tener acceso a los repositorios
estándar y también al repositorio de archive.cloudera.com
Tipos de Instalación de Cloudera
Manager
• Despliegues para entornos de producción
– Requiere que primero se instalen y configuren la
base de datos de producción para Cloudera
Manager Server y Hive Metastore. Existen dos
opciones de instalación:
• Instalación Manual utilizando los Paquetes de
Cloudera Manager
– Los administradores instalan Oracle JDK, y los paquetes de
Cloudera Manager Server y de la base de datos embebida
PostgreSQL en el host Cloudera Manager Server.
• Instalación manual utilizando los Tarballs de
Cloudera Manager
– Los adminsitradores instalan Oracle JDK, Cloudera Manager
Server, y Cloudera Manager Agent software como tarballs y
utilizan Cloudera Manager para automatizar la instalación de
Tipos de Instalación de Cloudera
Manager
Hoy realizaremos un despliegue de
demostración y prueba de concepto
Instalando Cloudera Manager
Arquitectura del sistema
Cloudera Manager
Nombre: taldeanodo1
ip: 192.168.0.100
Roles
Nombre: taldeanodo4
ip: 192.168.0.101
Roles
Nombre: taldeanodo2
ip: 192.168.0.101
Roles
Nombre: taldeanodo3
ip: 192.168.0.101
Configuraciones iniciales
• Crear usuarios comunes:
root@ubuntu$ adduser user
xxxxxx@ubuntu$ sudo adduser user
user/eskola2016
xxxxxxx@ubuntu$ logout
Configuraciones iniciales
• Deshabilitar IPv6:
user@ubuntu$ sudo nano /etc/sysctl.conf
• Añadir al final:
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
• Aplicar cambios:
user@ubuntu$ sudo sysctl -p
Configuraciones iniciales
• Identificar nodos del cluster:
user@ubuntu$ sudo nano /etc/hosts
127.0.0.1 localhost
IP_nodo1 taldeanodo1
IP_nodo2 taldeanodo2
IP_nodo3 taldeanodo3
IP_nodo4 taldeanodo4
Configuraciones iniciales
• Dar nombre al host. Ej:
user@ubuntu$ sudo nano /etc/hostname
taldeanodo1
Configuraciones iniciales
• Configurar NTP (Network Time Protocol)
user@ubuntu$ sudo apt-get install ntp
user@ubuntu$ sudo nano /etc/ntp.conf
(comentar los servidores que vienen por defecto, y
añadir al final:)
#cluster configuration
restrict <red_del_cluster> mask <mascara_del_cluster>
nomodify notrap
server 193.146.78.15 iburst
server <ip_del_master> iburst
Configuraciones iniciales
• Añadir user a “sudoers”, usuario con
capacidad de ejecutar comandos de
administrador, sin necesidad de
contraseña:
user@cdhmaster:~$ sudo visudo
Añadir al final:
user ALL=(ALL:ALL) NOPASSWD: ALL
Configuraciones iniciales
• Añadir repositorios de Cloudera para Ubuntu
user@ubuntu $ sudo wget
'http://archive.cloudera.com/cdh5/ubuntu/trusty/amd64/cdh/cloudera
.list' -O /etc/apt/sources.list.d/cloudera.list
user@ubuntu $ wget
http://archive.cloudera.com/cdh5/ubuntu/trusty/amd64/cdh/archive.k
ey -O archive.key
user@ubuntu $ sudo apt-key add archive.key
user@ubuntu $ sudo apt-get update
user@ubuntu $ sudo nano /etc/apt/preferences.d/cloudera.pref
Package: *
Pin: release o=Cloudera, l=Cloudera
Pin-Priority: 501
Configuraciones iniciales
• Actualizar el servidor
user@ubuntu $ sudo apt-get upgrade
• Reiniciar las máquinas
user@ubuntu $ sudo reboot
Instalación de Cloudera Manager
Server
• En el Master
user@cdhmaster$ wget
http://archive.cloudera.com/cm5/installer/latest/clou
dera-manager-installer.bin
user@cdhmaster$ chmod u+x cloudera-manager-
installer.bin
user@cdhmaster$ sudo ./cloudera-manager-installer.bin
Instalación de Cloudera Manager
Server
• Antes de proceder, reducir el parámetro de
memoria RAM consumida por Cloudera
Manager (debido a los escasos recursos del
Curso):
user@cdhmaster$ sudo nano /etc/default/cloudera-scm-
server
export CMF_JAVA_OPTS="-Xmx1g -XX:MaxPermSize=256m -
XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp"
Instalación de Cloudera Manager
Server
http://ip_master:7180/cmf/login
User: admin
Password: admin
Cloudera Manager
Cloudera Manager
Cloudera Manager
• “single user”. Este modo hace que el
sistema no necesite crear usuarios para los
distintos componentes de los que se
compone Cloudera, ya que los gestiona
desde un mismo usuario. En nuestro caso,
no seleccionaremos está opción (implica
cierto trabajo manual).
Cloudera Manager
Cloudera Manager
Cloudera Manager
Cloudera Manager
• Una vez finalizada la instalación, “tuneamos” el
Master para evitar problemas de memoria:
user@cdhmaster:/etc$ sudo sysctl vm.swappiness=0
y/o
user@cdhmaster:/etc$ sudo nano /etc/sysctl.conf
al final añadir:
vm.swappiness=0
Añadir Servicios Gestionados
Roles de los Servicios
Gestionados
• Una vez instalado y desplegado, deberemos
asignar los roles a los nodos.
• El ayudante de instalación evalúa las
configuraciones del hardware (número de
núcleos, RAM, espacio,…) para determinar
los mejores nodos para cada rol.
• Por lo general, la propuesta realizada no se
modificará a no ser que se vea estrictamente
necesario, o se quiera separar los roles en
diferentes nodos por alguna razón concreta.
Roles de los Servicios
Gestionados
Roles de los Servicios
Gestionados
Configuración de la Base de Datos
Cloudera Manager
Fin!
Cloudera Manager
• Información sobre las máquinas que puede
monitorizar Cloudera Manager (agentes de
Cloudera)
Cloudera Manager
• Diagnóstico, de los procesos y servicios en
ejecución
• Auditorías: podemos realizar búsquedas y
generar filtros para recuperar registros de
auditoría o logs.
• Charts: sirve para poder crear nuestro propio
panel de mandos de donde monitorizar los
recursos del Cluster
• Administración: permite visualizar y “tocar”
algunos parámetros relacionados con la
eficiencia, seguridad, monitorización,
Añadir Hosts al Cluster
Añadir Hosts al Cluster
Fin!
Eskerrik asko
www.mondragon.edu
Urko Zurutuza
Mondragon Unibertsitatea
uzurutuza@mondragon.edu
https://es.linkedin.com/in/uzurutuz
a/
@urkovain

Weitere ähnliche Inhalte

Was ist angesagt?

Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresStratebi
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Webinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinWebinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinFederico Leven
 
Optimización de aplicaciones web con base de datos NoSQL In-Memory
Optimización de aplicaciones web con base de datos NoSQL In-MemoryOptimización de aplicaciones web con base de datos NoSQL In-Memory
Optimización de aplicaciones web con base de datos NoSQL In-MemoryGonzalo Chacaltana
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobrightSoftware Guru
 
MySQL Cluster: El ‘qué’ y el ‘cómo’.
MySQL Cluster: El ‘qué’ y el ‘cómo’.MySQL Cluster: El ‘qué’ y el ‘cómo’.
MySQL Cluster: El ‘qué’ y el ‘cómo’.Keith Hollman
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
MySQL Una Introduccion Tecnica
MySQL Una Introduccion TecnicaMySQL Una Introduccion Tecnica
MySQL Una Introduccion TecnicaKeith Hollman
 

Was ist angesagt? (20)

Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Presentacion
PresentacionPresentacion
Presentacion
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
HDFS
HDFSHDFS
HDFS
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Webinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinWebinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y Zeppelin
 
Optimización de aplicaciones web con base de datos NoSQL In-Memory
Optimización de aplicaciones web con base de datos NoSQL In-MemoryOptimización de aplicaciones web con base de datos NoSQL In-Memory
Optimización de aplicaciones web con base de datos NoSQL In-Memory
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright
 
MySQL Cluster: El ‘qué’ y el ‘cómo’.
MySQL Cluster: El ‘qué’ y el ‘cómo’.MySQL Cluster: El ‘qué’ y el ‘cómo’.
MySQL Cluster: El ‘qué’ y el ‘cómo’.
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
MySQL Una Introduccion Tecnica
MySQL Una Introduccion TecnicaMySQL Una Introduccion Tecnica
MySQL Una Introduccion Tecnica
 

Andere mochten auch

Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para DummiesStratebi
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Curso de big data
Curso de big data Curso de big data
Curso de big data Luis Joyanes
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Big Data: Presente o Futuro
Big Data: Presente o FuturoBig Data: Presente o Futuro
Big Data: Presente o FuturoSteelmood
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big DataAMETIC
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónBEEVA_es
 
Redesigned passenger centric airport and aircraft interiors16032017
Redesigned passenger centric airport and aircraft interiors16032017Redesigned passenger centric airport and aircraft interiors16032017
Redesigned passenger centric airport and aircraft interiors16032017PASSME Community
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Desarrollo Android
Desarrollo AndroidDesarrollo Android
Desarrollo AndroidJuan Jimenez
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Ricardo Sada
 
Real time passenger centric forecast system
Real time passenger centric forecast systemReal time passenger centric forecast system
Real time passenger centric forecast systemPASSME Community
 

Andere mochten auch (20)

Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 
Big Data: Presente o Futuro
Big Data: Presente o FuturoBig Data: Presente o Futuro
Big Data: Presente o Futuro
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BI
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 
Redesigned passenger centric airport and aircraft interiors16032017
Redesigned passenger centric airport and aircraft interiors16032017Redesigned passenger centric airport and aircraft interiors16032017
Redesigned passenger centric airport and aircraft interiors16032017
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Desarrollo Android
Desarrollo AndroidDesarrollo Android
Desarrollo Android
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1
 
Real time passenger centric forecast system
Real time passenger centric forecast systemReal time passenger centric forecast system
Real time passenger centric forecast system
 

Ähnlich wie Monta una Infraestructura Big Data para tu Empresa - Sesión II

Docker para Data Scientist - Master en Data Science URJC
Docker para Data Scientist - Master en Data Science URJCDocker para Data Scientist - Master en Data Science URJC
Docker para Data Scientist - Master en Data Science URJCMicael Gallego
 
Presentacion instaladores os debian centos
Presentacion instaladores os debian centosPresentacion instaladores os debian centos
Presentacion instaladores os debian centosOpenStack-VE
 
Alta disponibilidad con Pacemaker
Alta disponibilidad con PacemakerAlta disponibilidad con Pacemaker
Alta disponibilidad con PacemakerNelson Calero
 
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...Francisco Javier Toscano Lopez
 
Instalaroraclecentosfinal 140203202142-phpapp01
Instalaroraclecentosfinal 140203202142-phpapp01Instalaroraclecentosfinal 140203202142-phpapp01
Instalaroraclecentosfinal 140203202142-phpapp01Ariel Corpas
 
Introduction to Oracle Clusterware 12c
Introduction to Oracle Clusterware 12cIntroduction to Oracle Clusterware 12c
Introduction to Oracle Clusterware 12cGuatemala User Group
 
Manual de configuracion de proxy SQUID
Manual de configuracion de proxy SQUIDManual de configuracion de proxy SQUID
Manual de configuracion de proxy SQUIDAndres Ldño
 
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.ppt
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.pptUso_Avanzado_de_GPOs_en_Windows_Server_2003.ppt
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.pptRaulAnchiraicoGarcia
 
MySQL de 1995 a 5.5
MySQL de 1995 a 5.5MySQL de 1995 a 5.5
MySQL de 1995 a 5.5juliomacr
 
Policyd: Instalacion y configuracion
Policyd: Instalacion y configuracionPolicyd: Instalacion y configuracion
Policyd: Instalacion y configuracioncriscega
 
Abf leccion 03
Abf leccion 03Abf leccion 03
Abf leccion 03victdiazm
 
Gestión de base de datos ii
Gestión de base de datos iiGestión de base de datos ii
Gestión de base de datos iibane12
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupalcamposer
 
Manual final nagios
Manual final nagiosManual final nagios
Manual final nagiosrpm-alerts
 

Ähnlich wie Monta una Infraestructura Big Data para tu Empresa - Sesión II (20)

Virtualizacion mail server.pptx
Virtualizacion mail server.pptxVirtualizacion mail server.pptx
Virtualizacion mail server.pptx
 
Las cronicas de redis
Las cronicas de redisLas cronicas de redis
Las cronicas de redis
 
Squid lpt
Squid lptSquid lpt
Squid lpt
 
Docker para Data Scientist - Master en Data Science URJC
Docker para Data Scientist - Master en Data Science URJCDocker para Data Scientist - Master en Data Science URJC
Docker para Data Scientist - Master en Data Science URJC
 
Presentacion instaladores os debian centos
Presentacion instaladores os debian centosPresentacion instaladores os debian centos
Presentacion instaladores os debian centos
 
Alta disponibilidad con Pacemaker
Alta disponibilidad con PacemakerAlta disponibilidad con Pacemaker
Alta disponibilidad con Pacemaker
 
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...
Como sacar el máximo partido a los Cores de MuleSoft - optimización y buenas ...
 
Instalaroraclecentosfinal 140203202142-phpapp01
Instalaroraclecentosfinal 140203202142-phpapp01Instalaroraclecentosfinal 140203202142-phpapp01
Instalaroraclecentosfinal 140203202142-phpapp01
 
Introduction to Oracle Clusterware 12c
Introduction to Oracle Clusterware 12cIntroduction to Oracle Clusterware 12c
Introduction to Oracle Clusterware 12c
 
Oracle
OracleOracle
Oracle
 
Manual de configuracion de proxy SQUID
Manual de configuracion de proxy SQUIDManual de configuracion de proxy SQUID
Manual de configuracion de proxy SQUID
 
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.ppt
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.pptUso_Avanzado_de_GPOs_en_Windows_Server_2003.ppt
Uso_Avanzado_de_GPOs_en_Windows_Server_2003.ppt
 
MySQL de 1995 a 5.5
MySQL de 1995 a 5.5MySQL de 1995 a 5.5
MySQL de 1995 a 5.5
 
Instalar Oracle 11g R2 CentOS 6.4
Instalar Oracle 11g R2 CentOS 6.4Instalar Oracle 11g R2 CentOS 6.4
Instalar Oracle 11g R2 CentOS 6.4
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
Policyd: Instalacion y configuracion
Policyd: Instalacion y configuracionPolicyd: Instalacion y configuracion
Policyd: Instalacion y configuracion
 
Abf leccion 03
Abf leccion 03Abf leccion 03
Abf leccion 03
 
Gestión de base de datos ii
Gestión de base de datos iiGestión de base de datos ii
Gestión de base de datos ii
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupal
 
Manual final nagios
Manual final nagiosManual final nagios
Manual final nagios
 

Mehr von Urko Zurutuza

2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioaUrko Zurutuza
 
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioaUrko Zurutuza
 
2013 10-22 internet-arriskuak_andramendi_es
2013 10-22 internet-arriskuak_andramendi_es2013 10-22 internet-arriskuak_andramendi_es
2013 10-22 internet-arriskuak_andramendi_esUrko Zurutuza
 
2013 10-22 internet-arriskuak_andramendi_eu
2013 10-22 internet-arriskuak_andramendi_eu2013 10-22 internet-arriskuak_andramendi_eu
2013 10-22 internet-arriskuak_andramendi_euUrko Zurutuza
 
¿Cómo encuentro al profesional especializado que necesito?
¿Cómo encuentro al profesional especializado que necesito?¿Cómo encuentro al profesional especializado que necesito?
¿Cómo encuentro al profesional especializado que necesito?Urko Zurutuza
 
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...Urko Zurutuza
 
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practica
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practicaTolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practica
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practicaUrko Zurutuza
 
Internet-en, ze irudi ari naiz ematen?
Internet-en, ze irudi ari naiz ematen?Internet-en, ze irudi ari naiz ematen?
Internet-en, ze irudi ari naiz ematen?Urko Zurutuza
 
4.3. gestion de reputación online
4.3. gestion de reputación online4.3. gestion de reputación online
4.3. gestion de reputación onlineUrko Zurutuza
 
4.1. herramientas colaborativas-red
4.1. herramientas colaborativas-red4.1. herramientas colaborativas-red
4.1. herramientas colaborativas-redUrko Zurutuza
 
01.BCulinary_infor_TICs
01.BCulinary_infor_TICs01.BCulinary_infor_TICs
01.BCulinary_infor_TICsUrko Zurutuza
 
BCulinary Informatica: presentacion
BCulinary Informatica: presentacionBCulinary Informatica: presentacion
BCulinary Informatica: presentacionUrko Zurutuza
 
Internet arriskuak bidegoian_2011-09-22
Internet arriskuak bidegoian_2011-09-22Internet arriskuak bidegoian_2011-09-22
Internet arriskuak bidegoian_2011-09-22Urko Zurutuza
 

Mehr von Urko Zurutuza (13)

2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioa
 
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioa
 
2013 10-22 internet-arriskuak_andramendi_es
2013 10-22 internet-arriskuak_andramendi_es2013 10-22 internet-arriskuak_andramendi_es
2013 10-22 internet-arriskuak_andramendi_es
 
2013 10-22 internet-arriskuak_andramendi_eu
2013 10-22 internet-arriskuak_andramendi_eu2013 10-22 internet-arriskuak_andramendi_eu
2013 10-22 internet-arriskuak_andramendi_eu
 
¿Cómo encuentro al profesional especializado que necesito?
¿Cómo encuentro al profesional especializado que necesito?¿Cómo encuentro al profesional especializado que necesito?
¿Cómo encuentro al profesional especializado que necesito?
 
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...
Tolosaldea Garatzen - Semana de las TIC - Estrategias Basicas Pagina Web - te...
 
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practica
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practicaTolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practica
Tolosaldea Garatzen - TIC Astea - Estrategias Básicas Pagina Web - practica
 
Internet-en, ze irudi ari naiz ematen?
Internet-en, ze irudi ari naiz ematen?Internet-en, ze irudi ari naiz ematen?
Internet-en, ze irudi ari naiz ematen?
 
4.3. gestion de reputación online
4.3. gestion de reputación online4.3. gestion de reputación online
4.3. gestion de reputación online
 
4.1. herramientas colaborativas-red
4.1. herramientas colaborativas-red4.1. herramientas colaborativas-red
4.1. herramientas colaborativas-red
 
01.BCulinary_infor_TICs
01.BCulinary_infor_TICs01.BCulinary_infor_TICs
01.BCulinary_infor_TICs
 
BCulinary Informatica: presentacion
BCulinary Informatica: presentacionBCulinary Informatica: presentacion
BCulinary Informatica: presentacion
 
Internet arriskuak bidegoian_2011-09-22
Internet arriskuak bidegoian_2011-09-22Internet arriskuak bidegoian_2011-09-22
Internet arriskuak bidegoian_2011-09-22
 

Kürzlich hochgeladen

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 

Kürzlich hochgeladen (10)

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 

Monta una Infraestructura Big Data para tu Empresa - Sesión II

  • 1. Taller: “Monta una infraestructura Big Data para tu Empresa” Urko Zurutuza Dpto. Electrónica e Informática Mondragon Goi Eskola Politeknikoa JMA Mondragon Unibertsitatea
  • 2. Agenda • Día 1: Introducción al Big Data • Día 2: Instalación de un cluster Cloudera • Día 3: Ejercicios sobre Cloudera
  • 3. Índice 1. Requisitos 2. Consideraciones de Red y de Seguridad 3. Instalación 4. Instalando Cloudera Manager 5. Cloudera Manager
  • 5. Sistemas Operativos • RHEL, CentOS (5.7 64 bit, 6.4 64 bit, 6.4 en modo Selinux, 6.5, 64 bit) • Oracle Enterprise Linux with default kernel and Unbreakable Enterprise Kernel, 64-bit (5.6 (UEK R2), 6.4 (UEK R2), 6.5 (UEK R2, UEK R3)) • SUSE Linux Enterprise Server 11, 64-bit • Debian - Wheezy (7.0 and 7.1), Squeeze (6.0) (deprecated), 64-bit • Ubuntu - Trusty (14.04), Precise (12.04), Lucid (10.04) (deprecated), 64-bit
  • 6. JDK (Java Development Kit) • Cloudera Manager: – Oracle JDK 1.8.0_11 – Oracle JDK 1.7.0_67 – Oracle JDK 1.6.0_31 • Cloudera Manager debe estar ejecutado sobre una versión JDK soportada por todos los clusters Hadoop que gestiona. Ejemplo: – Cloudera Manager 5 sobre la versión 1.6 de JDK solo podrá gestionar clusters de CDH4. – Para gestionar clusters CDH5 se necesita la versión 1.7 de JDK. – Si se desean gestionar clusters de CDH4 y CDH5 de forma simultánea con Cloudera Manager 5, se deberá urilizar la versión 1.7 de JDK.
  • 7. Navegadores • La Consola de Administración de Cloudera Manager, la cual se utiliza para la instalación, configuración, gestión y monitorización de servicios, está soportada por: – Mozilla Firefox 11 y superiores – Google Chrome – Internet Explorer 9 y superiores – Safari 5 y superiores
  • 8. Bases de Datos • Cloudera Manager Server almacena información sobre los servicios configurados, la asignación de roles, un histórico de la configuración, comandos, usuarios, y procesos en ejecución en una base de datos propia. • Cloudera Manager y los servicios que los soportan pueden hacer uso de las siguientes bases de datos: – MySQL - 5.0, 5.1, 5.5, y 5.6 – Oracle 11gR2 – PostgreSQL - 8.4, 9.1, 9.2, y 9.3 • Cloudera soporta las versiones de MySQL y PostgreSQL que incluyen las distribuciones Linux en sus instalaciones.
  • 9. Espacio en Disco • Cloudera Manager Server: – 5 GB en la partición /var. – 500 MB en la partición /usr. – Para el uso de “parcels”, el espacio requerido depende del número de “parcelas” que se descarguen a Cloudera Manger y se distribuyan a los agentes. Ejemplo: • CDH 4.6 - 700 MB por parcel; • CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB por parcel (desempaquetado) • Cloudera Impala - 200 MB por parcel • Cloudera Search - 400 MB por parcel • Cloudera Management Service – Las bases de datos de monitorización se almacenan sobre la partición /var. Se recomienda asegurar al menos 20 GB en esta partición. • Agentes – Cada “parcel” desempaquetado requiere en los agentes unas 3 veces el espacio del “parcel” descargado en Cloudera Manager Server.
  • 10. Espacio en Disco • Cloudera Manager Server: – 5 GB en la partición /var. – 500 MB en la partición /usr. – Para el uso de “parcels”, el espacio requerido depende del número de “parcelas” que se descarguen a Cloudera Manger y se distribuyan a los agentes. Ejemplo: • CDH 4.6 - 700 MB por parcel; • CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB por parcel (desempaquetado) • Cloudera Impala - 200 MB por parcel • Cloudera Search - 400 MB por parcel • Cloudera Management Service – Las bases de datos de monitorización se almacenan sobre la partición /var. Se recomienda asegurar al menos 20 GB en esta partición. • Agentes – Cada “parcel” desempaquetado requiere en los agentes unas 3 veces el espacio del “parcel” descargado en Cloudera Manager Server.
  • 11. Memoria RAM • Se recomiendan 4 GB para la mayoría de los casos, siendo esto un requisito en el caso que se use una base de datos Oracle. • En caso contrario y en una instalación de menos de 100 hosts, podría ser suficiente con 2 GB. • Es conveniente reducir la cantidad máxima de memoria que usa Cloudera Manager Server para sus servicios Java.
  • 12. Python • Cloudera Manager, CDH5 y HUE funcionan sobre Python 2.6 o 2.7
  • 13. Consideraciones de Red y Seguridad
  • 14. Requisitos de Red Cloudera Manager, CDH5 y HUE funcionan sobre Python 2.6 o 2.7 • Direccionamiento IP asignado de forma estática • Fichero /etc/hosts correctamente formateado. Debe: – Contener información persistente sobre los nombres de los equipos y direcciones IP de los nodos – No debe contener nombres que contengan mayúsculas – No debe contener direcciones IP duplicadas
  • 15. Requisitos de Red Cloudera Manager, CDH5 y HUE funcionan sobre Python 2.6 o 2.7 • En la mayoría de los casos, Cloudera Manager Server deberá tener acceso SSH a los equipos del cluster para poder realizar la instalación y despliegue de servicios. • Además, se deberá proveer del usuario y credencial de root, o proveer de un usuario con permiso “sudo” sin que se pida la contraseña. • Una vez finalizada la instalación, se puede cambiar la contraseña de root, o deshabilitar el requisito anterior.
  • 16. Requisitos de Red Cloudera Manager, CDH5 y HUE funcionan sobre Python 2.6 o 2.7 • Asegurar que Security-Enhanced Linux (SELinux) no bloquea ningún servicio o acceso. • IPv6 debe estar deshabilitado. • Asegurarnos que no se están bloqueando puertos mediante iptables o algún otro tipo de firewall. El puerto 7189 debe estar accesible una vez termine la instalación. El propio Cloudera Manager recomienda en su documentación los puertos que deben estar abiertos.
  • 18. Tipos de Instalación de Cloudera Manager • Un despliegue de Cloudera Manager consiste en los siguientes componentes Software: – Oracle JDK – Cloudera Manager Server y los paquetes Agentes – Software de base de datos que de soporte – CDH y el software de servicios gestionados
  • 19. Tipos de Instalación de Cloudera Manager • Despliegues de demostración y pruebas de concepto totalmente automatizada: – Oracle JDK, – Cloudera Manager Server, – PostgreSQL embebida, – Cloudera Manager Agent, – CDH, – software de servicios gestionados en los hosts del cluster. – Además, configura las bases de datos de Cloudera Manager Server y Hive.
  • 20. Tipos de Instalación de Cloudera Manager • Despliegues de demostración y pruebas de concepto totalmente automatizados – Recomendada para pruebas de concepto y demostraciones. No para despliegues de producción. – Este sistema no está pensado para poder escalar las bases de datos en el caso de que el cluster crezca mucho. – Los requisitos previos para esta instalación son: • Darle la opción de abrir sesión en el host de Cloudera Manager Server utilizando una cuenta root o una cuenta donde el usuario tenga permisos sudo sin requerir la contraseña. • Permitir que Cloudera Manager Server tenga acceso uniforme a SSH en todos los hosts del cluster. • Todos los hosts deberán tener acceso a los repositorios estándar y también al repositorio de archive.cloudera.com
  • 21. Tipos de Instalación de Cloudera Manager • Despliegues para entornos de producción – Requiere que primero se instalen y configuren la base de datos de producción para Cloudera Manager Server y Hive Metastore. Existen dos opciones de instalación: • Instalación Manual utilizando los Paquetes de Cloudera Manager – Los administradores instalan Oracle JDK, y los paquetes de Cloudera Manager Server y de la base de datos embebida PostgreSQL en el host Cloudera Manager Server. • Instalación manual utilizando los Tarballs de Cloudera Manager – Los adminsitradores instalan Oracle JDK, Cloudera Manager Server, y Cloudera Manager Agent software como tarballs y utilizan Cloudera Manager para automatizar la instalación de
  • 22. Tipos de Instalación de Cloudera Manager Hoy realizaremos un despliegue de demostración y prueba de concepto
  • 24. Arquitectura del sistema Cloudera Manager Nombre: taldeanodo1 ip: 192.168.0.100 Roles Nombre: taldeanodo4 ip: 192.168.0.101 Roles Nombre: taldeanodo2 ip: 192.168.0.101 Roles Nombre: taldeanodo3 ip: 192.168.0.101
  • 25. Configuraciones iniciales • Crear usuarios comunes: root@ubuntu$ adduser user xxxxxx@ubuntu$ sudo adduser user user/eskola2016 xxxxxxx@ubuntu$ logout
  • 26. Configuraciones iniciales • Deshabilitar IPv6: user@ubuntu$ sudo nano /etc/sysctl.conf • Añadir al final: net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1 • Aplicar cambios: user@ubuntu$ sudo sysctl -p
  • 27. Configuraciones iniciales • Identificar nodos del cluster: user@ubuntu$ sudo nano /etc/hosts 127.0.0.1 localhost IP_nodo1 taldeanodo1 IP_nodo2 taldeanodo2 IP_nodo3 taldeanodo3 IP_nodo4 taldeanodo4
  • 28. Configuraciones iniciales • Dar nombre al host. Ej: user@ubuntu$ sudo nano /etc/hostname taldeanodo1
  • 29. Configuraciones iniciales • Configurar NTP (Network Time Protocol) user@ubuntu$ sudo apt-get install ntp user@ubuntu$ sudo nano /etc/ntp.conf (comentar los servidores que vienen por defecto, y añadir al final:) #cluster configuration restrict <red_del_cluster> mask <mascara_del_cluster> nomodify notrap server 193.146.78.15 iburst server <ip_del_master> iburst
  • 30. Configuraciones iniciales • Añadir user a “sudoers”, usuario con capacidad de ejecutar comandos de administrador, sin necesidad de contraseña: user@cdhmaster:~$ sudo visudo Añadir al final: user ALL=(ALL:ALL) NOPASSWD: ALL
  • 31. Configuraciones iniciales • Añadir repositorios de Cloudera para Ubuntu user@ubuntu $ sudo wget 'http://archive.cloudera.com/cdh5/ubuntu/trusty/amd64/cdh/cloudera .list' -O /etc/apt/sources.list.d/cloudera.list user@ubuntu $ wget http://archive.cloudera.com/cdh5/ubuntu/trusty/amd64/cdh/archive.k ey -O archive.key user@ubuntu $ sudo apt-key add archive.key user@ubuntu $ sudo apt-get update user@ubuntu $ sudo nano /etc/apt/preferences.d/cloudera.pref Package: * Pin: release o=Cloudera, l=Cloudera Pin-Priority: 501
  • 32. Configuraciones iniciales • Actualizar el servidor user@ubuntu $ sudo apt-get upgrade • Reiniciar las máquinas user@ubuntu $ sudo reboot
  • 33. Instalación de Cloudera Manager Server • En el Master user@cdhmaster$ wget http://archive.cloudera.com/cm5/installer/latest/clou dera-manager-installer.bin user@cdhmaster$ chmod u+x cloudera-manager- installer.bin user@cdhmaster$ sudo ./cloudera-manager-installer.bin
  • 34. Instalación de Cloudera Manager Server • Antes de proceder, reducir el parámetro de memoria RAM consumida por Cloudera Manager (debido a los escasos recursos del Curso): user@cdhmaster$ sudo nano /etc/default/cloudera-scm- server export CMF_JAVA_OPTS="-Xmx1g -XX:MaxPermSize=256m - XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp"
  • 35. Instalación de Cloudera Manager Server http://ip_master:7180/cmf/login User: admin Password: admin
  • 38. Cloudera Manager • “single user”. Este modo hace que el sistema no necesite crear usuarios para los distintos componentes de los que se compone Cloudera, ya que los gestiona desde un mismo usuario. En nuestro caso, no seleccionaremos está opción (implica cierto trabajo manual).
  • 42. Cloudera Manager • Una vez finalizada la instalación, “tuneamos” el Master para evitar problemas de memoria: user@cdhmaster:/etc$ sudo sysctl vm.swappiness=0 y/o user@cdhmaster:/etc$ sudo nano /etc/sysctl.conf al final añadir: vm.swappiness=0
  • 44. Roles de los Servicios Gestionados • Una vez instalado y desplegado, deberemos asignar los roles a los nodos. • El ayudante de instalación evalúa las configuraciones del hardware (número de núcleos, RAM, espacio,…) para determinar los mejores nodos para cada rol. • Por lo general, la propuesta realizada no se modificará a no ser que se vea estrictamente necesario, o se quiera separar los roles en diferentes nodos por alguna razón concreta.
  • 45. Roles de los Servicios Gestionados
  • 46. Roles de los Servicios Gestionados
  • 47. Configuración de la Base de Datos
  • 49. Fin!
  • 50. Cloudera Manager • Información sobre las máquinas que puede monitorizar Cloudera Manager (agentes de Cloudera)
  • 51. Cloudera Manager • Diagnóstico, de los procesos y servicios en ejecución • Auditorías: podemos realizar búsquedas y generar filtros para recuperar registros de auditoría o logs. • Charts: sirve para poder crear nuestro propio panel de mandos de donde monitorizar los recursos del Cluster • Administración: permite visualizar y “tocar” algunos parámetros relacionados con la eficiencia, seguridad, monitorización,
  • 52. Añadir Hosts al Cluster
  • 53. Añadir Hosts al Cluster
  • 54. Fin!
  • 55. Eskerrik asko www.mondragon.edu Urko Zurutuza Mondragon Unibertsitatea uzurutuza@mondragon.edu https://es.linkedin.com/in/uzurutuz a/ @urkovain

Hinweis der Redaktion

  1. http://www.ibmbigdatahub.com/blog/6-steps-start-your-big-data-journey