SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Big Data en
En Tema:
Que es Facebook
Facebook en Números
Reto Tecnológico
Descripción de Hadoop
Esquema de solución
Conclusión
Juan Pablo Frias Robles: Desarrollador BI
Que es Facebook
*Facebook (pronunciación [feɪsbʊk]) es un sitio web de redes sociales creado por Mark
Zuckerberg y fundado junto a Eduardo Saverin, Chris Hughes y Dustin Moskovitz. Originalmente
era un sitio para estudiantes de la Universidad de Harvard. Su propósito era diseñar un espacio
en el que los alumnos de dicha universidad pudieran intercambiar una comunicación fluida y
compartir contenido de forma sencilla a través de Internet. Fue tan innovador su proyecto que
con el tiempo se extendió hasta estar disponible para cualquier usuario de la red.
A mediados de 2007 lanzó las versiones en francés, alemán y español traducidas por usuarios de
manera no remunerada, principalmente para impulsar su expansión fuera de Estados Unidos, ya
que sus usuarios se concentraban en Estados Unidos, Canadá y Reino Unido.
Facebook en Números
Inicia operaciones en 2004 para usuarios de universidades y en 2007 se abre a todos los usuarios
en internet, para entonces recaudo datos por 15 Terabytes en un RDBMS comercial y para 2009
manejaban 700 Terabytes de datos y 300 millones de usuarios.
Traducido a 140 idiomas
Los ingresos por concepto de publicidad al trimestre son de más de 4.3 mil mdd (2015)
1,09 millones de usuarios activos al día (promedio marzo 2016)
Se dan alrededor de 4.500 millones de likes al día (2014)
se comparten 3,3 millones de actualizaciones (2014)
Los usuarios gastan aproximadamente 351 minutos al mes en la red social (2014)
Cada día agrega 4 Petabytes de almacenamiento de información de sus usuarios (2015)
En el lanzamiento de la
plataforma el esquema
de almacenamiento
estaba planteado
en el RDBMS MYSQL
Reto Tecnológico
Siendo 2008 con decenas de millones de usuarios y más de una página de mil millones de visitas
todos los días, Facebook termina acumulando grandes cantidades de datos.
Uno de los retos a los se enfrentaron desde los primeros días es el desarrollo de una forma
escalable de almacenamiento y procesamiento de todos estos bytes ya que con estos datos
históricos es una parte muy importante de cómo podemos mejorar la experiencia del usuario en
Facebook.
Esto sólo puede hacerse mediante la potenciación de sus
ingenieros y analistas con herramientas fáciles de usar para
extraer y manipular grandes conjuntos de datos.
Descripción de Hadoop
Hadoop es un Framework para almacenar y procesar grandes volúmenes de datos a través de
grupos de ordenadores.
PROS
Escalable: almacena y procesa terabytes, petabytes o zetabytes.
Económico: distribuye los datos y cargas a clúster de computadoras comúnmente disponible, los
clúster pueden componerse de miles de nodos.
Eficiente: Distribuyendo los datos puede procesar paralelamente en los nodos.
Confiable: Mantiene automáticamente copias de los datos en los múltiples nodos y mantiene
tareas para la prevención de fallas y posee resiliencia.
Contras:
Map-reduce difícil de programar ( Requiere conocimiento sql, bash, Python)
Necesidad de publicar datos en esquemas conocidos
Hadoop se basa en tres componentes fundamentales:
HDFS (Un sistema de archivos distribuido que proporciona alto rendimiento de acceso a datos de la
aplicación. )
Hadoop MapReduce (La plataforma para procesamiento distribuido de grandes conjuntos de datos.)
Hadoop Common (Las utilidades comunes sobre las cuales se apoyan los sub-proyectos de Hadoop.)
Solución: Hadoop HIVE
HIVE se compone de los siguientes componentes principales:
* MetaStore: Para almacenar los metadatos.
* Driver: El componente que gestiona el ciclo de vida de una declaración HiveQL medida que se
mueve a través de la colmena. El conductor también mantiene un identificador de sesión y cualquier
sesión estadística.
* Compilador de consultas y el motor de ejecución: Para convertir consultas SQL a una secuencia de
jobs map / reduce que a continuación se ejecutan en Hadoop.
*Motor de Ejecución: El motor de ejecución interactúa con la subyacente instancia Hadoop.
*HIVE Server: El componente que proporciona una segunda mano interfaz y un servidor JDBC/ODBC
y proporciona una manera de integrar con otras aplicaciones a Hive.
* SerDe y ObjectInspectors: las interfaces programables e implementaciones de formatos y tipos de
datos comunes.
* UDF y UDAF: las interfaces programables e implementaciones para las funciones definidas por el
usuario (escalares y funciones agregadas).
* Clientes: Comando cliente de línea similar a la línea de comandos de MySQL y una interfaz de
usuario web.
Esquema de Solución
Los mismos trabajos que habían tenido más de un
día para completar ahora podrían completarse en
unas pocas horas utilizando Hadoop.
Con Hadoop en 2009 se tenían 700TB de
datos en el almacén, los cuales 2.1PB
estaban en crudo en el espacio Hadoop
después de contar con 3 replicaciones
unidireccionales. Se añadían 5TB (15TB
después de la replicación) de datos
comprimidos al día. Se Procesaban 75TB
de datos al día.
Las empresas están en busca de hacerse de la habilidad de administrar y posteriormente analizar,
la gran cantidad de datos que se generan exponencialmente desde el boom de internet y que
anteriormente la tecnología no podía ofrecer una solución para ello. Empresas importantes de
diferentes verticales como Yahoo!, amazon, Google, ebay y otras están afianzados de la
plataforma Hadoop como lo hace Facebook.
Al ser herramientas de reciente creación y poca explotación, para los técnicos de Facebook les
fue complicado el generar los programas de map-reduce y en general su uso. Están afrontando
las carencias que cada vez son menos de la plataforma Hadoop. Esto con el beneficio
cuantificable de reducir de varios días a un par de horas el procesamiento de la información en
aquel 2009 en donde implementaron la herramienta.
Conclusión

Weitere ähnliche Inhalte

Was ist angesagt?

Sistemas Operativos Gestion de procesos
Sistemas Operativos Gestion de procesosSistemas Operativos Gestion de procesos
Sistemas Operativos Gestion de procesosChiNo Sosa Erazo
 
Unidad 4
Unidad 4Unidad 4
Unidad 4mi casa
 
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...Samhya LLerena
 
Programacion web c5 programacion del lado servidor
Programacion web c5 programacion del lado servidorProgramacion web c5 programacion del lado servidor
Programacion web c5 programacion del lado servidorAlejandro Hernandez
 
Componentes De SQL Server
Componentes De  SQL ServerComponentes De  SQL Server
Componentes De SQL ServerJhon Perez
 
Procesos Introduccion a los sistemas operativos
 Procesos Introduccion a los sistemas operativos Procesos Introduccion a los sistemas operativos
Procesos Introduccion a los sistemas operativosG Hoyos A
 
Ventajas y desvetajas de Android
Ventajas y desvetajas de AndroidVentajas y desvetajas de Android
Ventajas y desvetajas de AndroidGore Ochoa
 
Sistemas de tiempo compartido
Sistemas de tiempo compartidoSistemas de tiempo compartido
Sistemas de tiempo compartidoruberush
 
Tendencias en la Evaluación de la IHC
Tendencias en la Evaluación de la IHCTendencias en la Evaluación de la IHC
Tendencias en la Evaluación de la IHCArturo Martinez
 
Maquina de pila abstracta
Maquina de pila abstractaMaquina de pila abstracta
Maquina de pila abstractawilfredo pena
 
Organización y estructura interna del cpu
Organización y estructura interna del cpuOrganización y estructura interna del cpu
Organización y estructura interna del cpuIsaí Beto Matz Mijes
 
Modos.de.direccionamiento.del.8086
Modos.de.direccionamiento.del.8086Modos.de.direccionamiento.del.8086
Modos.de.direccionamiento.del.8086José Pedro Avila
 
Linea del tiempo del sistema operativo android
Linea del tiempo del sistema operativo androidLinea del tiempo del sistema operativo android
Linea del tiempo del sistema operativo androiddianadominguez1995
 

Was ist angesagt? (20)

Sistemas Operativos Gestion de procesos
Sistemas Operativos Gestion de procesosSistemas Operativos Gestion de procesos
Sistemas Operativos Gestion de procesos
 
Unidad 4
Unidad 4Unidad 4
Unidad 4
 
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...
Importancia de los Sistemas Cliente Servidor, su arquitectura y describir sus...
 
Sgbd
SgbdSgbd
Sgbd
 
Programacion web c5 programacion del lado servidor
Programacion web c5 programacion del lado servidorProgramacion web c5 programacion del lado servidor
Programacion web c5 programacion del lado servidor
 
Componentes De SQL Server
Componentes De  SQL ServerComponentes De  SQL Server
Componentes De SQL Server
 
Gestores de base de datos
Gestores de base de datosGestores de base de datos
Gestores de base de datos
 
Procesos Introduccion a los sistemas operativos
 Procesos Introduccion a los sistemas operativos Procesos Introduccion a los sistemas operativos
Procesos Introduccion a los sistemas operativos
 
SQLite
SQLiteSQLite
SQLite
 
Historia de los sistemas operativos
Historia de los sistemas operativosHistoria de los sistemas operativos
Historia de los sistemas operativos
 
Ventajas y desvetajas de Android
Ventajas y desvetajas de AndroidVentajas y desvetajas de Android
Ventajas y desvetajas de Android
 
Sistemas de tiempo compartido
Sistemas de tiempo compartidoSistemas de tiempo compartido
Sistemas de tiempo compartido
 
Introduccion a open office
Introduccion a open officeIntroduccion a open office
Introduccion a open office
 
Tendencias en la Evaluación de la IHC
Tendencias en la Evaluación de la IHCTendencias en la Evaluación de la IHC
Tendencias en la Evaluación de la IHC
 
Presentación de Aplicaciones Móviles
Presentación de Aplicaciones MóvilesPresentación de Aplicaciones Móviles
Presentación de Aplicaciones Móviles
 
Maquina de pila abstracta
Maquina de pila abstractaMaquina de pila abstracta
Maquina de pila abstracta
 
Uso de John the Ripper
Uso de John the RipperUso de John the Ripper
Uso de John the Ripper
 
Organización y estructura interna del cpu
Organización y estructura interna del cpuOrganización y estructura interna del cpu
Organización y estructura interna del cpu
 
Modos.de.direccionamiento.del.8086
Modos.de.direccionamiento.del.8086Modos.de.direccionamiento.del.8086
Modos.de.direccionamiento.del.8086
 
Linea del tiempo del sistema operativo android
Linea del tiempo del sistema operativo androidLinea del tiempo del sistema operativo android
Linea del tiempo del sistema operativo android
 

Andere mochten auch

Conductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHAConductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHASabitha Chittibabu
 
A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016GMOH_PSD
 
Embarazo en la adolescencia
Embarazo en la adolescenciaEmbarazo en la adolescencia
Embarazo en la adolescenciageorginamj
 
Знакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяЗнакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяОлена Семенець
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorAlberto Gimeno
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710mbommari
 
Manual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedManual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedGMOH_PSD
 

Andere mochten auch (19)

Prevision mercredi 7 mai 2015
Prevision mercredi 7  mai  2015Prevision mercredi 7  mai  2015
Prevision mercredi 7 mai 2015
 
Conductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHAConductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHA
 
khaled cv and portfolio
khaled cv and portfoliokhaled cv and portfolio
khaled cv and portfolio
 
La comunicación
La comunicaciónLa comunicación
La comunicación
 
A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016
 
Cat3D Novidades 2016. I Curso AFIBRA
Cat3D Novidades 2016. I Curso AFIBRACat3D Novidades 2016. I Curso AFIBRA
Cat3D Novidades 2016. I Curso AFIBRA
 
Embarazo en la adolescencia
Embarazo en la adolescenciaEmbarazo en la adolescencia
Embarazo en la adolescencia
 
Знакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяЗнакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті Запоріжжя
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valor
 
Embarazos no deseados
Embarazos no deseadosEmbarazos no deseados
Embarazos no deseados
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Curso mnps 2015 Introdução
Curso mnps 2015 IntroduçãoCurso mnps 2015 Introdução
Curso mnps 2015 Introdução
 
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip KovačekJavantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
 
Javantura v4 - DMN – supplement your BPMN - Željko Šmaguc
Javantura v4 - DMN – supplement your BPMN - Željko ŠmagucJavantura v4 - DMN – supplement your BPMN - Željko Šmaguc
Javantura v4 - DMN – supplement your BPMN - Željko Šmaguc
 
Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710
 
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
 
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
 
Manual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedManual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reduced
 
NIVEL I
NIVEL I NIVEL I
NIVEL I
 

Ähnlich wie Big Data en FaceBook

SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Tecnologías que implementa facebook
Tecnologías que implementa facebookTecnologías que implementa facebook
Tecnologías que implementa facebookAngel Vega
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Tecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesTecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesLuis Miguel
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes socialesCharlieDS
 
Tecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webTecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webJESUSFRANCISCOFLORES1
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBkattia vargas
 
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 Cesar Gustavo Diaz Vasquez
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Redes sociales (tecnología)
Redes sociales (tecnología)Redes sociales (tecnología)
Redes sociales (tecnología)Mirella Paico
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 

Ähnlich wie Big Data en FaceBook (20)

SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Exposicion
ExposicionExposicion
Exposicion
 
Tecnologías que implementa facebook
Tecnologías que implementa facebookTecnologías que implementa facebook
Tecnologías que implementa facebook
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Tecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesTecnologias detras de las Redes sociales
Tecnologias detras de las Redes sociales
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes sociales
 
Tecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webTecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios web
 
Sgbd y tecnologias
Sgbd y tecnologiasSgbd y tecnologias
Sgbd y tecnologias
 
Tecnologías detrás de las redes sociales
Tecnologías detrás de las redes socialesTecnologías detrás de las redes sociales
Tecnologías detrás de las redes sociales
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEB
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 
Sgbd
SgbdSgbd
Sgbd
 
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
L6 undergrad thesis(1)
L6   undergrad thesis(1)L6   undergrad thesis(1)
L6 undergrad thesis(1)
 
Redes sociales (tecnología)
Redes sociales (tecnología)Redes sociales (tecnología)
Redes sociales (tecnología)
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 

Kürzlich hochgeladen

Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfReducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...JC Díaz Herrera
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 

Kürzlich hochgeladen (20)

Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfReducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 

Big Data en FaceBook

  • 1. Big Data en En Tema: Que es Facebook Facebook en Números Reto Tecnológico Descripción de Hadoop Esquema de solución Conclusión Juan Pablo Frias Robles: Desarrollador BI
  • 2. Que es Facebook *Facebook (pronunciación [feɪsbʊk]) es un sitio web de redes sociales creado por Mark Zuckerberg y fundado junto a Eduardo Saverin, Chris Hughes y Dustin Moskovitz. Originalmente era un sitio para estudiantes de la Universidad de Harvard. Su propósito era diseñar un espacio en el que los alumnos de dicha universidad pudieran intercambiar una comunicación fluida y compartir contenido de forma sencilla a través de Internet. Fue tan innovador su proyecto que con el tiempo se extendió hasta estar disponible para cualquier usuario de la red. A mediados de 2007 lanzó las versiones en francés, alemán y español traducidas por usuarios de manera no remunerada, principalmente para impulsar su expansión fuera de Estados Unidos, ya que sus usuarios se concentraban en Estados Unidos, Canadá y Reino Unido.
  • 3. Facebook en Números Inicia operaciones en 2004 para usuarios de universidades y en 2007 se abre a todos los usuarios en internet, para entonces recaudo datos por 15 Terabytes en un RDBMS comercial y para 2009 manejaban 700 Terabytes de datos y 300 millones de usuarios. Traducido a 140 idiomas Los ingresos por concepto de publicidad al trimestre son de más de 4.3 mil mdd (2015) 1,09 millones de usuarios activos al día (promedio marzo 2016) Se dan alrededor de 4.500 millones de likes al día (2014) se comparten 3,3 millones de actualizaciones (2014) Los usuarios gastan aproximadamente 351 minutos al mes en la red social (2014) Cada día agrega 4 Petabytes de almacenamiento de información de sus usuarios (2015)
  • 4. En el lanzamiento de la plataforma el esquema de almacenamiento estaba planteado en el RDBMS MYSQL
  • 5. Reto Tecnológico Siendo 2008 con decenas de millones de usuarios y más de una página de mil millones de visitas todos los días, Facebook termina acumulando grandes cantidades de datos. Uno de los retos a los se enfrentaron desde los primeros días es el desarrollo de una forma escalable de almacenamiento y procesamiento de todos estos bytes ya que con estos datos históricos es una parte muy importante de cómo podemos mejorar la experiencia del usuario en Facebook. Esto sólo puede hacerse mediante la potenciación de sus ingenieros y analistas con herramientas fáciles de usar para extraer y manipular grandes conjuntos de datos.
  • 6. Descripción de Hadoop Hadoop es un Framework para almacenar y procesar grandes volúmenes de datos a través de grupos de ordenadores. PROS Escalable: almacena y procesa terabytes, petabytes o zetabytes. Económico: distribuye los datos y cargas a clúster de computadoras comúnmente disponible, los clúster pueden componerse de miles de nodos. Eficiente: Distribuyendo los datos puede procesar paralelamente en los nodos. Confiable: Mantiene automáticamente copias de los datos en los múltiples nodos y mantiene tareas para la prevención de fallas y posee resiliencia. Contras: Map-reduce difícil de programar ( Requiere conocimiento sql, bash, Python) Necesidad de publicar datos en esquemas conocidos
  • 7. Hadoop se basa en tres componentes fundamentales: HDFS (Un sistema de archivos distribuido que proporciona alto rendimiento de acceso a datos de la aplicación. ) Hadoop MapReduce (La plataforma para procesamiento distribuido de grandes conjuntos de datos.) Hadoop Common (Las utilidades comunes sobre las cuales se apoyan los sub-proyectos de Hadoop.)
  • 8. Solución: Hadoop HIVE HIVE se compone de los siguientes componentes principales: * MetaStore: Para almacenar los metadatos. * Driver: El componente que gestiona el ciclo de vida de una declaración HiveQL medida que se mueve a través de la colmena. El conductor también mantiene un identificador de sesión y cualquier sesión estadística. * Compilador de consultas y el motor de ejecución: Para convertir consultas SQL a una secuencia de jobs map / reduce que a continuación se ejecutan en Hadoop. *Motor de Ejecución: El motor de ejecución interactúa con la subyacente instancia Hadoop. *HIVE Server: El componente que proporciona una segunda mano interfaz y un servidor JDBC/ODBC y proporciona una manera de integrar con otras aplicaciones a Hive. * SerDe y ObjectInspectors: las interfaces programables e implementaciones de formatos y tipos de datos comunes. * UDF y UDAF: las interfaces programables e implementaciones para las funciones definidas por el usuario (escalares y funciones agregadas). * Clientes: Comando cliente de línea similar a la línea de comandos de MySQL y una interfaz de usuario web. Esquema de Solución
  • 9. Los mismos trabajos que habían tenido más de un día para completar ahora podrían completarse en unas pocas horas utilizando Hadoop. Con Hadoop en 2009 se tenían 700TB de datos en el almacén, los cuales 2.1PB estaban en crudo en el espacio Hadoop después de contar con 3 replicaciones unidireccionales. Se añadían 5TB (15TB después de la replicación) de datos comprimidos al día. Se Procesaban 75TB de datos al día.
  • 10. Las empresas están en busca de hacerse de la habilidad de administrar y posteriormente analizar, la gran cantidad de datos que se generan exponencialmente desde el boom de internet y que anteriormente la tecnología no podía ofrecer una solución para ello. Empresas importantes de diferentes verticales como Yahoo!, amazon, Google, ebay y otras están afianzados de la plataforma Hadoop como lo hace Facebook. Al ser herramientas de reciente creación y poca explotación, para los técnicos de Facebook les fue complicado el generar los programas de map-reduce y en general su uso. Están afrontando las carencias que cada vez son menos de la plataforma Hadoop. Esto con el beneficio cuantificable de reducir de varios días a un par de horas el procesamiento de la información en aquel 2009 en donde implementaron la herramienta. Conclusión