SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Hadoop en acción

  Cluster de bajo perfil para el
análisis de grandes volúmenes de
               datos
¿Quién soy yo?

● Sergio Navarrete Suárez
● Estudiante de Ingeniería de Sistemas de la Universidad
  Distrital Francisco José de Caldas
● Usuario de Linux desde hace tres años aproximadamente
● Coordinador General Grupo GNU/Linux Universidad
  Distrital Francisco José de Caldas
● Equipo Webmaster - Red de Datos Universidad Distrital
Contenido

● ¿Qué es MapReduce?
● ¿Qué es HDFS?
● ¿Cuándo usar HDFS?
● ¿Cuándo NO usar HDFS?
● Partes de un HDFS
● Optimización por distancia física
● ¿Qué es Hadoop?
● ¿Por qué Hadoop?
Contenido

● ¿Cuándo utilizar Hadoop?
● Arquitectura de Hadoop
● La implementación de Hadoop de MapReduce
● Anatomía de un trabajo de Hadoop
● Ejemplo en Hadoop
● ¿Qué sigue?
● Fuentes
● Conclusiones
● Preguntas
● Agradecimientos especiales
¿Qué es MapReduce?

● Algoritmo desarrollado por Google para procesar pequeñas
  cantidades de archivos de gran tamaño.
● Muy rápido comparado con scripts de shell
● Implementación rápida, comparado con multiprocesamiento
  (preparación de los datos)
● Hace uso de hardware de bajo perfil
¿Qué es HDFS?

● Sistema de archivos distribuido
● Diseñado para trabajar de manera eficiente con
  MapReduce
● Trabaja con bloques (64 MB por defecto)
¿Cuándo usar HDFS?

● Archivos muy, muy grandes (GB o más)
● Necesidad de particionar archivos
● Fallo de nodos sin perder información
● Una escritura, muchas lecturas
¿Cuándo NO usar HDFS?

● Baja latencia
● Muchos archivos pequeños
● Multiples "escritores"
● Modificaciones arbitrarias a los archivos
Partes de un HDFS

● Namenode: Mantiene el árbol del sistema de archivos y los
  metadatos.
   ○ Namespace image
   ○ Edit log
● Datanodes: Contienen los datos. Reportan al Namenode
  con la información acerca de los bloques actuales.
● Secondary namenode: En el cual se descarga información
  del edit log para que no se vuelva muy grande en el
  namenode.
   ○ Puede funcionar como namenode en caso de que este
      falle, pero puede haber pérdida de información (no fue
      diseñado para cumplir esta tarea).
Optimización por distancia física
¿Qué es Hadoop?

● Framework para almacenar y procesar grandes volúmenes
  de datos.
● Don't make better hardware. Use more hardware instead.
● Orientado a los datos: se enfoca en el uso de disco y el
  ancho de banda de la red más que en el procesamiento
  (aunque esto también puede optimizarse)
Breve historia de Hadoop
● Empieza en 2002 con Doug Cutting y Mike Cafarella
● Inspirado por los papers de Google en MapReduce y
  Google File System
● Proyecto nombrado a partir de el elefante de peluche
  amarillo del hijo de Doug (de ahí el logo)
● Empieza como parte de la manera de manejar los datos de
  un motor de búsqueda web (Notch)
● Proyecto Apache Hadoop inicia - 2006
● Desarrollado y bastante usado en Yahoo!
● Usado también en LastFM, Facebook y The New York
  Times
● 1 TB sort benchmark - 209 seg. - 2008
● Minute sort - 500 GB en 59 seg. (1400 nodos)
● 100 TB sort benchmark - 173 min. (3400 nodos) - 2009
¿Por qué Hadoop?

● Más rápido que un RDBMS para grandes volúmenes de
  datos (especialmente datos no organizados)
● Más rápido que un HPC tradicional, ya que implementa
  optimizaciones teniendo en cuenta la topología de la red
  (optimiza el uso de la red)
● Evita la pérdida de información a través de replicación
● API fácil de aprender
● Posibilidad de trabajar con lenguajes diferentes a Java
¿Cuándo usar Hadoop?

● Se tienen grandes archivos (GB para arriba)
● No se tiene un RDBMS
● Se tiene el hardware
● Se van a hacer muchas más lecturas que escrituras
● Programas de tipo clave -> valor
Arquitectura - Software




                     Fuente: Wikipedia.org
Arquitectura - Hardware
Implementación de Hadoop de
MapReduce
● Fase "map"
   ○ Se toma la entrada, se divide en subproblemas y se
     distribuyen a los "worker nodes". Estos a su vez pueden
     hacer lo mismo.
   ○ Los "worker nodes" procesan los datos y retornan un
     resultado a su nodo maestro.
   ○ En algunos casos, esta fase sólo prepara la información
     para ser procesada por el reductor.
Implementación de Hadoop de
MapReduce
● Fase "reduce"
   ○ El nodo maestro toma los resultados de la fase "map" de
     los "worker nodes" y los combina de alguna manera
     programada.
   ○ Si todos los mapeos son independientes entre sí, se
     puede decir que todos pueden correr en paralelo.
Implementación de Hadoop de
MapReduce
Anatomia de un trabajo de Hadoop

● Datos de entrada, programa MapReduce e información de
  configuración
● Tareas de mapeo y reducción (pap and reduce tasks)
● Jobtracker: Coordina las tareas y las programa para que
  sean resueltas por los tasktrackers.
● Tasktracker: Resuelve tareas y envía el resultado al
  jobtracker.
● Cualquier lenguaje que pueda leer desde stdin y escribir a
  stdout puede ser utilizado con Hadoop
Ejemplo en hadoop

● Construir el cluster
   ○ Instalar software de virtualización
   ○ Copiar la máquina virtual con Hadoop
   ○ Correr la máquina
   ○ Mirar la configuración de Hadoop
   ○ Dar las direcciones IP al maestro
   ○ Añadir llave de ssh a hosts confiables
   ○ Iniciar los demonios (dfs y mapred)
   ○ Hacer prueba de verificación
Ejemplo en hadoop

● Descargar e instalar Hadoop
● Crear usuario hadoop
● Instalar los paquetes adicionales
● Configurar el sistema de archivos en red (NFS)
● Probar la instalación
● Guardar los datos en el HDFS
● Entender el problema
● Correr el programa
● Obtener los resultados
● Analizar los resultados
¿Qué sigue?

● Análisis de datos astronómicos (Gamma-ray bursts) en el
  Centro de Computación de Alto Desempeño (CECAD)
● Clasificación de correos electrónicos en la Red de Datos
  (Universidad Distrital FJC).
● Análisis de logs con el grupo de seguridad del Grupo
  GNU/Linux de la Universidad Distrital FJC
Recursos fuente

1. White, Tom. Hadoop, the definitive guide. O'Reilly - Yahoo!
   Press. 2nd Edition
2. Project Gutenberg www.gutenberg.org
Conclusiones
Preguntas
Agradecimientos especiales

Weitere ähnliche Inhalte

Was ist angesagt?

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaDavid Albela Pérez
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosRaul Ochoa
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 

Was ist angesagt? (20)

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con Cloudera
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Presentacion
PresentacionPresentacion
Presentacion
 
HDFS
HDFSHDFS
HDFS
 

Ähnlich wie Hadoop en accion

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduceVictoria López
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupalcamposer
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 

Ähnlich wie Hadoop en accion (20)

Programación Disribuida
Programación DisribuidaProgramación Disribuida
Programación Disribuida
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
introduction to hadoop
introduction to hadoopintroduction to hadoop
introduction to hadoop
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStack
 
3. Hadoop
3.  Hadoop3.  Hadoop
3. Hadoop
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupal
 
Paralela9
Paralela9Paralela9
Paralela9
 
Taller hadoop
Taller hadoopTaller hadoop
Taller hadoop
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Spark Hands-on
Spark Hands-onSpark Hands-on
Spark Hands-on
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 

Mehr von campus party

¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? ¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? campus party
 
Producción del largometraje pequeñas voces
Producción del largometraje pequeñas vocesProducción del largometraje pequeñas voces
Producción del largometraje pequeñas vocescampus party
 
Conferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilConferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilcampus party
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contrerascampus party
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contrerascampus party
 
X taller bluevialiminal
X taller bluevialiminalX taller bluevialiminal
X taller bluevialiminalcampus party
 
X liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallerX liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallercampus party
 
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1campus party
 
Theremin Alfredo Vargas
Theremin Alfredo Vargas Theremin Alfredo Vargas
Theremin Alfredo Vargas campus party
 
Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon campus party
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés BautistaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautistacampus party
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés FonsecaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonsecacampus party
 
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPAseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPcampus party
 
Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping campus party
 
Creación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticaCreación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticacampus party
 
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...campus party
 

Mehr von campus party (20)

Titulo
Titulo Titulo
Titulo
 
¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? ¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad?
 
Producción del largometraje pequeñas voces
Producción del largometraje pequeñas vocesProducción del largometraje pequeñas voces
Producción del largometraje pequeñas voces
 
Conferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilConferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvil
 
Liminal Bluevia 1
Liminal Bluevia 1Liminal Bluevia 1
Liminal Bluevia 1
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
 
X taller bluevialiminal
X taller bluevialiminalX taller bluevialiminal
X taller bluevialiminal
 
X liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallerX liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-taller
 
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
 
Theremin Alfredo Vargas
Theremin Alfredo Vargas Theremin Alfredo Vargas
Theremin Alfredo Vargas
 
Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés BautistaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés FonsecaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
 
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPAseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
 
Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping
 
Creación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticaCreación transmediática y comunidades en práctica
Creación transmediática y comunidades en práctica
 
Android+Arduino
Android+ArduinoAndroid+Arduino
Android+Arduino
 
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
 
Linux en caja
Linux en cajaLinux en caja
Linux en caja
 

Kürzlich hochgeladen

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 

Kürzlich hochgeladen (16)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 

Hadoop en accion

  • 1. Hadoop en acción Cluster de bajo perfil para el análisis de grandes volúmenes de datos
  • 2. ¿Quién soy yo? ● Sergio Navarrete Suárez ● Estudiante de Ingeniería de Sistemas de la Universidad Distrital Francisco José de Caldas ● Usuario de Linux desde hace tres años aproximadamente ● Coordinador General Grupo GNU/Linux Universidad Distrital Francisco José de Caldas ● Equipo Webmaster - Red de Datos Universidad Distrital
  • 3. Contenido ● ¿Qué es MapReduce? ● ¿Qué es HDFS? ● ¿Cuándo usar HDFS? ● ¿Cuándo NO usar HDFS? ● Partes de un HDFS ● Optimización por distancia física ● ¿Qué es Hadoop? ● ¿Por qué Hadoop?
  • 4. Contenido ● ¿Cuándo utilizar Hadoop? ● Arquitectura de Hadoop ● La implementación de Hadoop de MapReduce ● Anatomía de un trabajo de Hadoop ● Ejemplo en Hadoop ● ¿Qué sigue? ● Fuentes ● Conclusiones ● Preguntas ● Agradecimientos especiales
  • 5. ¿Qué es MapReduce? ● Algoritmo desarrollado por Google para procesar pequeñas cantidades de archivos de gran tamaño. ● Muy rápido comparado con scripts de shell ● Implementación rápida, comparado con multiprocesamiento (preparación de los datos) ● Hace uso de hardware de bajo perfil
  • 6. ¿Qué es HDFS? ● Sistema de archivos distribuido ● Diseñado para trabajar de manera eficiente con MapReduce ● Trabaja con bloques (64 MB por defecto)
  • 7. ¿Cuándo usar HDFS? ● Archivos muy, muy grandes (GB o más) ● Necesidad de particionar archivos ● Fallo de nodos sin perder información ● Una escritura, muchas lecturas
  • 8. ¿Cuándo NO usar HDFS? ● Baja latencia ● Muchos archivos pequeños ● Multiples "escritores" ● Modificaciones arbitrarias a los archivos
  • 9. Partes de un HDFS ● Namenode: Mantiene el árbol del sistema de archivos y los metadatos. ○ Namespace image ○ Edit log ● Datanodes: Contienen los datos. Reportan al Namenode con la información acerca de los bloques actuales. ● Secondary namenode: En el cual se descarga información del edit log para que no se vuelva muy grande en el namenode. ○ Puede funcionar como namenode en caso de que este falle, pero puede haber pérdida de información (no fue diseñado para cumplir esta tarea).
  • 11. ¿Qué es Hadoop? ● Framework para almacenar y procesar grandes volúmenes de datos. ● Don't make better hardware. Use more hardware instead. ● Orientado a los datos: se enfoca en el uso de disco y el ancho de banda de la red más que en el procesamiento (aunque esto también puede optimizarse)
  • 12. Breve historia de Hadoop ● Empieza en 2002 con Doug Cutting y Mike Cafarella ● Inspirado por los papers de Google en MapReduce y Google File System ● Proyecto nombrado a partir de el elefante de peluche amarillo del hijo de Doug (de ahí el logo) ● Empieza como parte de la manera de manejar los datos de un motor de búsqueda web (Notch) ● Proyecto Apache Hadoop inicia - 2006 ● Desarrollado y bastante usado en Yahoo! ● Usado también en LastFM, Facebook y The New York Times ● 1 TB sort benchmark - 209 seg. - 2008 ● Minute sort - 500 GB en 59 seg. (1400 nodos) ● 100 TB sort benchmark - 173 min. (3400 nodos) - 2009
  • 13. ¿Por qué Hadoop? ● Más rápido que un RDBMS para grandes volúmenes de datos (especialmente datos no organizados) ● Más rápido que un HPC tradicional, ya que implementa optimizaciones teniendo en cuenta la topología de la red (optimiza el uso de la red) ● Evita la pérdida de información a través de replicación ● API fácil de aprender ● Posibilidad de trabajar con lenguajes diferentes a Java
  • 14. ¿Cuándo usar Hadoop? ● Se tienen grandes archivos (GB para arriba) ● No se tiene un RDBMS ● Se tiene el hardware ● Se van a hacer muchas más lecturas que escrituras ● Programas de tipo clave -> valor
  • 15. Arquitectura - Software Fuente: Wikipedia.org
  • 17. Implementación de Hadoop de MapReduce ● Fase "map" ○ Se toma la entrada, se divide en subproblemas y se distribuyen a los "worker nodes". Estos a su vez pueden hacer lo mismo. ○ Los "worker nodes" procesan los datos y retornan un resultado a su nodo maestro. ○ En algunos casos, esta fase sólo prepara la información para ser procesada por el reductor.
  • 18. Implementación de Hadoop de MapReduce ● Fase "reduce" ○ El nodo maestro toma los resultados de la fase "map" de los "worker nodes" y los combina de alguna manera programada. ○ Si todos los mapeos son independientes entre sí, se puede decir que todos pueden correr en paralelo.
  • 20. Anatomia de un trabajo de Hadoop ● Datos de entrada, programa MapReduce e información de configuración ● Tareas de mapeo y reducción (pap and reduce tasks) ● Jobtracker: Coordina las tareas y las programa para que sean resueltas por los tasktrackers. ● Tasktracker: Resuelve tareas y envía el resultado al jobtracker. ● Cualquier lenguaje que pueda leer desde stdin y escribir a stdout puede ser utilizado con Hadoop
  • 21. Ejemplo en hadoop ● Construir el cluster ○ Instalar software de virtualización ○ Copiar la máquina virtual con Hadoop ○ Correr la máquina ○ Mirar la configuración de Hadoop ○ Dar las direcciones IP al maestro ○ Añadir llave de ssh a hosts confiables ○ Iniciar los demonios (dfs y mapred) ○ Hacer prueba de verificación
  • 22. Ejemplo en hadoop ● Descargar e instalar Hadoop ● Crear usuario hadoop ● Instalar los paquetes adicionales ● Configurar el sistema de archivos en red (NFS) ● Probar la instalación ● Guardar los datos en el HDFS ● Entender el problema ● Correr el programa ● Obtener los resultados ● Analizar los resultados
  • 23. ¿Qué sigue? ● Análisis de datos astronómicos (Gamma-ray bursts) en el Centro de Computación de Alto Desempeño (CECAD) ● Clasificación de correos electrónicos en la Red de Datos (Universidad Distrital FJC). ● Análisis de logs con el grupo de seguridad del Grupo GNU/Linux de la Universidad Distrital FJC
  • 24. Recursos fuente 1. White, Tom. Hadoop, the definitive guide. O'Reilly - Yahoo! Press. 2nd Edition 2. Project Gutenberg www.gutenberg.org