Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Semantix - Ecossistema Hadoop

18 Aufrufe

Veröffentlicht am

Introdução ao Ecossistema Hadoop - Versão 1.0

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Semantix - Ecossistema Hadoop

  1. 1. Introdução ao Big Data - Ecossistema Hadoop
  2. 2. Ecossistema Hadoop
  3. 3. Introdução ao Big Data. ▸Hadoop HDFS. ▸Hadoop Map Reduce. ▸Spark. ▸Hive. ▸Sqoop. ▸Flume. ▸Kafka. ▸Hbase. ▸Zookeeper. Agenda INTRODUÇÃO AO ECOSSISTEMA HADOOP
  4. 4. O que é Big Data ? A ideia de Big Data está diretamente relacionada ao grande volume de dados gerados diariamente, não sendo possível armazenar e processar pelos métodos tradicionais. INTRODUÇÃO AO ECOSSISTEMA HADOOP – Big Data
  5. 5. INTRODUÇÃO AO ECOSSISTEMA HADOOP – Big Data Crescimento dos Dados Estima-se que 90% dos dados criados foram gerados nos últimos 2 anos. Esses dados são gerados por: redes sociais, celulares, sensores, e-commerce e etc.
  6. 6. INTRODUÇÃO AO ECOSSISTEMA HADOOP – Big Data Quando devo utilizar Big Data ?
  7. 7. Profissões INTRODUÇÃO AO ECOSSISTEMA HADOOP – Big Data ▸Arquiteto de Soluções Big Data (Arquitetura) ▸Engenheiro de Big Data (Infra) ▸Engenheiro de Dados (Data Lake / ETL) ▸Cientista de Dados (Machine Learning) ▸Estatístico / Matemático (Modelos)
  8. 8. Skills – Engenheiro - Cientista INTRODUÇÃO AO ECOSSISTEMA HADOOP – Big Data
  9. 9. Ecossistema Hadoop INTRODUÇÃO AO ECOSSISTEMA HADOOP - Visão Geral
  10. 10. Hadoop HDFS (Distributed File System) INTRODUÇÃO AO ECOSSISTEMA HADOOP - HDFS O que é o Hadoop HDFS?O que é o Hadoop HDFS? Nodes, NameNodes, DataNodes? Data Storage? Arquitetura, Bloco, Replicação?
  11. 11. Hadoop HDFS (Nodes) INTRODUÇÃO AO ECOSSISTEMA HADOOP - HDFS
  12. 12. Hadoop HDFS (Data Storage) INTRODUÇÃO AO ECOSSISTEMA HADOOP - HDFS
  13. 13. Hadoop HDFS (Arquitetura) INTRODUÇÃO AO ECOSSISTEMA HADOOP - HDFS
  14. 14. Hadoop MapReduce INTRODUÇÃO AO ECOSSISTEMA HADOOP - MapReduce O que é o Hadoop HDFS?O que é o MapReduce? Como ele trabalha? Estrutura interna? Etapas de um Job MapReduce?
  15. 15. Hadoop MapReduce - WorkFlow INTRODUÇÃO AO ECOSSISTEMA HADOOP - MapReduce
  16. 16. Spark INTRODUÇÃO AO ECOSSISTEMA HADOOP - Spark ▸Processamento de dados alta escala. ▸Execução rápida. ▸Pode ser usado com Java, Scala, Python, R. ▸Pode ser usado para processamento Batch ou Streaming.
  17. 17. Spark Componentes INTRODUÇÃO AO ECOSSISTEMA HADOOP - Spark
  18. 18. Hive INTRODUÇÃO AO ECOSSISTEMA HADOOP - Hive ▸Surgiu nos laboratórios do Facebook. ▸Permite conexões ODBC/JDBC. ▸Operações Batch. ▸Utiliza a linguagem HQL. ▸Converte SQL para MapReduce. ▸Suporta vários tipos de arquivos: Avro, Parquet, ORC, TXT. ▸Suporta conversões: snapy e gzip.
  19. 19. Apache Sqoop - WorkFlow O Apache Sqoop é uma ferramenta para transferir dados de um RDBMS para Hadoop. SQL-to-Hadoop. INTRODUÇÃO AO ECOSSISTEMA HADOOP - Sqoop
  20. 20. Apache Flume INTRODUÇÃO AO ECOSSISTEMA HADOOP – Flume O Apache Flume é um mecanismo de ingestão de dados para coletar, agregar e transportar um grande volume de dados e armazenar em um storage centralizado. O objetivo principal do Flume é ingerir dados de eventos no HDFS de forma simples e automatizada. Porém, seu uso não se limita apenas ao HDFS, é possível enviar também dados para um arquivo ou banco de dados, entre outros. Sink com suporte nativo ao HDFS e Hbase.
  21. 21. Apache Flume - Componentes INTRODUÇÃO AO ECOSSISTEMA HADOOP – Flume
  22. 22. Apache Kafka INTRODUÇÃO AO ECOSSISTEMA HADOOP – Kafka Sistema de mensagens de uso geral baseado em uma arquitetura de Publish e Subscribe. Inicialmente desenvolvimento pelo LinkedIn, quando surgiu a necessidade de Processamento massivo de dados. Em 2012 foi absorvido pela Apache e se tornou open- source.
  23. 23. Apache Kafka - Componentes INTRODUÇÃO AO ECOSSISTEMA HADOOP – Kafka
  24. 24. Apache Hbase O Hbase é um banco não relacional (No-Sql), roda em cima do HDFS. Sua escalabilidade é Horizontal. Possui baixa latência para leitura / escrita com grande volume de dados, orientado a colunas e consegue suportar tabelas com bilhões de linhas. Informações de topologia de cluster altamente disponíveis através de implantações de produção com múltiplas instâncias Hmaster e Zookeeper. Não possui uma linguagem de consulta (Query language) apenas uma api própria para operações CRUD INTRODUÇÃO AO ECOSSISTEMA HADOOP – HBase
  25. 25. Apache Hbase - Arquitetura Os Dados ficam armazenados nos Region Server. O Zookeeper gerencia todos os Region Servers. INTRODUÇÃO AO ECOSSISTEMA HADOOP – HBase
  26. 26. Apache Zookeeper – Funcionalidades Serviço centralizado para manter informações de configuração Nomeação de servidores Provimento de serviços de grupos Sincronização distribuída Garante o HA (High Availability) do cluster Tolerante a falhas INTRODUÇÃO AO ECOSSISTEMA HADOOP – Zookeeper
  27. 27. O Nó com menor número de Znode se torna líder Apache Zookeeper – Sistema de Eleições INTRODUÇÃO AO ECOSSISTEMA HADOOP – Zookeeper
  28. 28. Obrigado Ederson Corbari Moisés Pereira ▸ ▸moises.mendes@semantix.com.br ▸ In/moisespereiraIn/ecorbari ▸ ▸ederson.corbari@semantix.com.br

×