Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
BIG DATA:
Una mirada tecnológica
· · ·
Dr. Rubén Casado
ruben...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¿QUÉ ES BIG DATA?
Grandes cantidades de datos estructurados y...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¿CÓMO ES BIG DATA?
Big Data are high-volume, high-velocity, a...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
3 PROBLEMAS
VOLUMEN
VARIEDAD VELOCIDAD
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
3 SOLUCIONES
BATCH
PROCESSING
NOSQL
STREAMING
PROCESSING
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
3 SOLUCIONES
BATCH
PROCESSING
NOSQL
STREAMING
PROCESSING
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¿CIENCIA O INGENIERÍA?
VOLUMEN
VARIEDAD VELOCIDAD
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¿CIENCIA O INGENIERÍA?
VOLUMEN
VARIEDAD VELOCIDAD
VALOR
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¿CIENCIA O INGENIERÍA?
VOLUMEN
VARIEDAD VELOCIDAD
VALORAnális...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
NoSQL
 Bases de datos relaciones
• Esquema fijo
• ACID (Atom...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
NoSQL
Key-value AI6: ‘Andres Iniesta’
AI6:{Name: ’Andrés’
Sur...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
VELOCITY
BATCH PROCESSING
 Escalable.
 Grandes cantidades d...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
STREAMING PROCESSING
 Baja latencia.
 Información generada ...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
HYBRID COMPUTATION MODEL



 Combina
VOLUME VELOCITY
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
PARADIGMAS DE PROCESAMIENTO
Batch processing
 Datos estático...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
BIG DATA: LÍNEA DEL TIEMPO
2005
The Google
File System
2004 2...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
FLUJO DE PROCESAMIENTO
RESULTSDATA
STORAGE
DATA
ANALYSIS
DATA...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
HADOOP
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
HDFS
 Hadoop Distributed File System
 Arquitectura Maestro-...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
MAPREDUCE
 Framework para el procesamiento de datos de forma...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
ECOSISTEMA HADOOP
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SPARK
 Sistema de computación distribuida optimizado para da...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SPARK VERSUS HADOOP
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
ECOSISTEMA SPARK
Spark
SQL
Spark
Streaming
MLlib
(MACHINE
LEA...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
REAL-TIME PROCESSING TECHNOLOGIES
RESULTS
DATA
STORAGE
DATA
A...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
FLUME
STREAMING
DATA SOURCE SINK
CHANNEL
AGENT
PROCESSING
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
KAFKA
 Kafka un sistema de colas distribuido, particionado y...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
Hadoop Storm
JobTracker Nimbus
TaskTracker Supervisor
Job Top...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SAMZA
 Motor de procesamientos de data streams en tiempo rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SPARK STREAMING
 Spark para real-time processing.
 Procesam...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
ARQUITECTURA LAMBDA
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
ARQUITECTURA LAMBDA
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SERVING DBSTREAM PROCESSING SYSTEM
DATA
DATA STORAGE
1 2 3 4 ...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
SERVING DBSTREAM PROCESSING SYSTEM
DATA
DATA STORAGE
1 2 3 4 ...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
APACHE FLINK
 Stack tecnológico desarrollado inicialmente co...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
Librerías
Ingesta y
almacenamiento
de datos
Motores de
proces...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
AGENDA
1. ¿Qué y cómo es Big Data?
2. Batch processing
3. Rea...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
CONCLUSIONES
 no es solo
 Identifica

 Apache Flink
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
Batch
processing
Streaming
processing
NoSQL
Query and
search
...
Introducción a Apache Flink
BIG DATA: Una mirada tecnológica
¡GRACIAS!
ruben_casado
ruben.casado@treelogic.com
Nächste SlideShare
Wird geladen in …5
×

Big Data: Una mirada tecnológica

2.630 Aufrufe

Veröffentlicht am

Introducción a Apache Flink: La apuesta europea en la carrera del Big Data.

Veröffentlicht in: Technologie

Big Data: Una mirada tecnológica

  1. 1. Introducción a Apache Flink BIG DATA: Una mirada tecnológica BIG DATA: Una mirada tecnológica · · · Dr. Rubén Casado ruben.casado@treelogic.com INTRODUCCIÓN A APACHE FLINK La apuesta europea en la carrera del Big Data
  2. 2. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  3. 3. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¿QUÉ ES BIG DATA? Grandes cantidades de datos estructurados y desestructurados que no se pueden procesar utilizando tecnologías tradicionales.
  4. 4. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¿CÓMO ES BIG DATA? Big Data are high-volume, high-velocity, and/or high- variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization. - Gartner IT Glossary -
  5. 5. Introducción a Apache Flink BIG DATA: Una mirada tecnológica 3 PROBLEMAS VOLUMEN VARIEDAD VELOCIDAD
  6. 6. Introducción a Apache Flink BIG DATA: Una mirada tecnológica 3 SOLUCIONES BATCH PROCESSING NOSQL STREAMING PROCESSING
  7. 7. Introducción a Apache Flink BIG DATA: Una mirada tecnológica 3 SOLUCIONES BATCH PROCESSING NOSQL STREAMING PROCESSING
  8. 8. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¿CIENCIA O INGENIERÍA? VOLUMEN VARIEDAD VELOCIDAD
  9. 9. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¿CIENCIA O INGENIERÍA? VOLUMEN VARIEDAD VELOCIDAD VALOR
  10. 10. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¿CIENCIA O INGENIERÍA? VOLUMEN VARIEDAD VELOCIDAD VALORAnálisis de Datos (DATA SCIENCE) Ingeniería del Software (DATA ENGINEERING)
  11. 11. Introducción a Apache Flink BIG DATA: Una mirada tecnológica NoSQL  Bases de datos relaciones • Esquema fijo • ACID (Atomicity, Consistency, Isolation, Durability) - Penalizaciones en rendimiento • Problemas de escalabilidad  NoSQL • Not Only SQL • Familia de soluciones • Google BigTable, Amazon Dynamo • BASE = Basically Available, Soft state, Eventually consistent • CAP= Consistency, Availability, Partition tolerance
  12. 12. Introducción a Apache Flink BIG DATA: Una mirada tecnológica NoSQL Key-value AI6: ‘Andres Iniesta’ AI6:{Name: ’Andrés’ Surname: ‘Iniesta’ Age: 31} AI6: [Personal:{Name: ’Andres’ Surname: ‘Iniesta’ Age: 31} Job: {Team: ‘España’ Salary: 20.000.000}] [AI6] [España] se_llama juega [Andrés]  Key: ID  Value: información  Diccionario  LinkedIn Voldemort  Riak, Redis  Memcache, Membase Documento  Más complejo que K-V  Documentos indexados por ID  Posibilidad de múltiples índices  MongoDB  CouchDB Columna  Tablas con familias de columnas predefinidas  Los campos dentro de las familias son optativos  Particionado vert. y hor.  HBase  Cassandra Grafos  Nodos (vértices)  Relaciones (aristas)  Neo4j  FlockDB  OrientDB
  13. 13. Introducción a Apache Flink BIG DATA: Una mirada tecnológica VELOCITY BATCH PROCESSING  Escalable.  Grandes cantidades de información estática.  Distribuido.  Paralelo.  Tolerante a fallos.  Alta latencia. VOLUME
  14. 14. Introducción a Apache Flink BIG DATA: Una mirada tecnológica STREAMING PROCESSING  Baja latencia.  Información generada de continuo (streams).  Distribuido.  Paralelo.  Tolerante a fallos. VOLUME VELOCITY
  15. 15. Introducción a Apache Flink BIG DATA: Una mirada tecnológica HYBRID COMPUTATION MODEL     Combina VOLUME VELOCITY
  16. 16. Introducción a Apache Flink BIG DATA: Una mirada tecnológica PARADIGMAS DE PROCESAMIENTO Batch processing  Datos estáticos  Escalabilidad  Volumen Streaming processing  Datos en continuo  Resultados en tiempo real  Velocidad Hybrid computation  Arquitecturas Lambda & Kappa  Volumen + Velocidad 2006 2010 2014 ORIGEN 2003 1ª GENERACIÓN 2ª GENERACIÓN 3ª GENERACIÓN
  17. 17. Introducción a Apache Flink BIG DATA: Una mirada tecnológica BIG DATA: LÍNEA DEL TIEMPO 2005 The Google File System 2004 2006 2010 2014 2003 20152009 2008 2007 2013 2012 2011 BATCH STREAM HYBRID MapReduce: Simplified Data Processing on Large Clusters Yahoo! comienza a trabajar en Hadoop Yahoo! crea S4 Facebook crea Hive LinkedIn presenta Samza Doug Cutting comienza el desarrollo de Hadoop Apache Hadoop está en producción Nathan Marz crea Storm Yahoo! crea Pig MillWheel: Fault-Tolerant Stream Processing at Internet Scale LinkedIn crea Kafka Cloudera crea Flume Nathan Marz define la Arquitectura Lambda Se libera Spark Arrancan Lambdoop & Summinbgird Stratosphere evoluciona a Apache Flink Comienza la batalla SQL-on-Hadoop Jay Kreps define la Arquitectura Kappa Cloudera libera Kudu
  18. 18. Introducción a Apache Flink BIG DATA: Una mirada tecnológica FLUJO DE PROCESAMIENTO RESULTSDATA STORAGE DATA ANALYSIS DATA ACQUISITION
  19. 19. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  20. 20. Introducción a Apache Flink BIG DATA: Una mirada tecnológica HADOOP
  21. 21. Introducción a Apache Flink BIG DATA: Una mirada tecnológica HDFS  Hadoop Distributed File System  Arquitectura Maestro-Esclavo (NameNode – DataNodes) • NameNode: Gestiona el árbol de directorio y el acceso a la información • DataNodes: Almacenan los datos  Replicación
  22. 22. Introducción a Apache Flink BIG DATA: Una mirada tecnológica MAPREDUCE  Framework para el procesamiento de datos de forma distribuida.  Inspirado en la estrategia clásica de Divide y Vencerás.  El desarrollador tiene que implementar las funciones Map y Reduce. • Map: Coge el dataset de entrada, lo divide en subconjuntos y los distribuye a los nodos de procesamiento en formato <K,V> • Reduce: Recibe un subconjunto concreto en forma <K, List(V)> y genera el resultado.
  23. 23. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ECOSISTEMA HADOOP
  24. 24. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SPARK  Sistema de computación distribuida optimizado para data analytics.  No es una versión modificada de Hadoop.  Compatible con HDFS.  Almacenamiento en memoria para ejecuciones rápidas de procesamientos iterativos.  API similar a MapReduce pero extendida.  Accesible desde Scala, Java, Python y R.
  25. 25. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SPARK VERSUS HADOOP
  26. 26. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ECOSISTEMA SPARK Spark SQL Spark Streaming MLlib (MACHINE LEARNING) GraphX (GRAPH) Apache Spark
  27. 27. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  28. 28. Introducción a Apache Flink BIG DATA: Una mirada tecnológica REAL-TIME PROCESSING TECHNOLOGIES RESULTS DATA STORAGE DATA ANALYSIS DATA ACQUISITION
  29. 29. Introducción a Apache Flink BIG DATA: Una mirada tecnológica FLUME STREAMING DATA SOURCE SINK CHANNEL AGENT PROCESSING
  30. 30. Introducción a Apache Flink BIG DATA: Una mirada tecnológica KAFKA  Kafka un sistema de colas distribuido, particionado y replicado. • Modelo Productor/Consumidor. • Almacena los mensajes en categorías llamadas topics. • Se ejecuta sobre un clúster.
  31. 31. Introducción a Apache Flink BIG DATA: Una mirada tecnológica Hadoop Storm JobTracker Nimbus TaskTracker Supervisor Job Topology STORM  Sistema de computación en tiempo real distribuido y escalable.  Hace para real-time processing lo que Hadoop hizo para batch processing.  Topology: grafo de procesamiento. Cada nodo contiene la lógica de aplicación. • Spout: Origen de los streams de datos. Leen de la fuente y emite dato a dato hacía la topología. • Bolts: Unidad de procesamiento. Leen datos de otros nodos, procesan y pueden producir datos hacia otros nodos. • Stream: Secuencia infinita de tuplas. Una tupla es un objeto serializado
  32. 32. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SAMZA  Motor de procesamientos de data streams en tiempo real.  Desarrollado por LinkedIn. Perfecta conexión con Kafka. Compatible con YARN. • Stream: Conjunto de mensajes inmutables de una misma categoría. • Job: Código que transforma un stream en otro stream. • Partition: Para asegurar escalabilidad, cada stream se parte en partitions de mensajes ordenados. • Tasks: Por asegurar escalabilidad, un job se divide en tasks. • Checkpoint: para asegurar recuperación ante fallos. • State management: Estado de cada task. Persistente y consultable.
  33. 33. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SPARK STREAMING  Spark para real-time processing.  Procesamiento de streaming como una serie de micro batch Jobs.  Almacenamiento de los estados en memoria.  API similar a Spark.
  34. 34. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  35. 35. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ARQUITECTURA LAMBDA
  36. 36. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ARQUITECTURA LAMBDA
  37. 37. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SERVING DBSTREAM PROCESSING SYSTEM DATA DATA STORAGE 1 2 3 4 5 . Job version n Job version n+1 Outoput table n+1 Outoput table n Query ARQUITECTURA KAPPA
  38. 38. Introducción a Apache Flink BIG DATA: Una mirada tecnológica SERVING DBSTREAM PROCESSING SYSTEM DATA DATA STORAGE 1 2 3 4 5 . Job version n Job version n+1 Outoput table n+1 Outoput table n Query ARQUITECTURA KAPPA
  39. 39. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  40. 40. Introducción a Apache Flink BIG DATA: Una mirada tecnológica APACHE FLINK  Stack tecnológico desarrollado inicialmente como proyecto de I+D Stratosphere por grupos de investigación de Berlín. Apache Incubator en Abril 2014 y Apache Top Level en Diciembre 2014.  Motor de procesamiento en memoria: • Procesamiento de streaming puro. Batch es un tipo concreto de Streaming. • API similar a Spark. • Soporte nativo de iteraciones. • Híbrido mediante Arquitectura Kappa. • Ecosistema creciendo.
  41. 41. Introducción a Apache Flink BIG DATA: Una mirada tecnológica Librerías Ingesta y almacenamiento de datos Motores de procesamiento Gestores de aplicaciones y recursos ECOSISTEMA DE BIG DATA YARN
  42. 42. Introducción a Apache Flink BIG DATA: Una mirada tecnológica AGENDA 1. ¿Qué y cómo es Big Data? 2. Batch processing 3. Real-time processing 4. Hybrid computation model 5. Apache Flink en el ecosistema Big Data 6. Conclusiones
  43. 43. Introducción a Apache Flink BIG DATA: Una mirada tecnológica CONCLUSIONES  no es solo  Identifica   Apache Flink
  44. 44. Introducción a Apache Flink BIG DATA: Una mirada tecnológica Batch processing Streaming processing NoSQL Query and search Machine Learning & Data Mining In-memory processing Hybrid computation CONCLUSIONES
  45. 45. Introducción a Apache Flink BIG DATA: Una mirada tecnológica ¡GRACIAS! ruben_casado ruben.casado@treelogic.com

×