Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Web aula 46: Conhecendo o
ecossistema BIG DATA
Fábio Jardim
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
...
www.projetoseti.com.br
Fábio Jardim
Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data
Mais de 10 an...
www.projetoseti.com.br
A evolução dos dados no nosso ambiente
Milhões de
transações
IOT
Bilhões de usuários em
rede sociai...
www.projetoseti.com.br
Onde armazenar
esses dados?
Como extrair
informações
valiosas desses
dados?
Como realizar
cruzament...
www.projetoseti.com.br
O Big Data
Grande conjunto de dados que excedem a capacidade de
armazenamento e processamento de da...
www.projetoseti.com.br
Velocidade
VariedadeVolume
OS Vs
www.projetoseti.com.br
Onde armazenar tudo isso?
• Nasce o conceito de Data Lake.
• Vasto repositório com uma variedade de...
www.projetoseti.com.br
DW x Datalake
Data Warehouse x DataLake
Estruturado e Processado Dados
Estruturado, semi-estruturad...
www.projetoseti.com.br
Big Data e Analytics
Analytics
Métodos e
Algoritmos
Big Data
Data
Mining
Machine
Learning
Big
Data
...
www.projetoseti.com.br
O que é Hadoop
• Plataforma que fornece infraestrutura resiliente, econômica e
escalável
• Armazena...
www.projetoseti.com.br
O que é Hadoop
2002
2002
2004
2005
2006
2008
2003
2004
2006
2008
2010
Criação
do
Projeto
Nutch
Impl...
www.projetoseti.com.br
Evolução do Ecossistema
HDFS
MapReduce
2006
Solr
Pig
HDFS
MapReduce
2007
Hbase
Zookeeper
Solr
Pig
H...
www.projetoseti.com.br
www.projetoseti.com.br
Principais distribuições
www.projetoseti.com.br
Eu preciso de um ambiente Big Data?
https://medium.com/via-varejo-arquitetura/voce-precisa-de-big-d...
www.projetoseti.com.br
Onde usar Big Data?
Big
Data
Real Time
BI
Analytics
DW
Logs
Batch
Mensageria
Distribuição
de dados
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
O que preciso saber?
www.projetoseti.com.br
Os novos papéis
Data Engineer
• Processamento Batch e Real Time
• Consolidação de dados
• Preparaçã...
www.projetoseti.com.br
O Data Scientist
• Ajudar na resolução de problemas
relacionados a negócios usando técnicas
orienta...
www.projetoseti.com.br
Quem usa Big Data no Brasil
• Varejo
• Industria
• Governo
• Marketing
• Esporte
• Medicina
• Segur...
www.projetoseti.com.br
Nossos patrocinadores
www.projetoseti.com.br
Nossas redes / Dúvidas e sugestões
 Pesquisa de satisfação: https://goo.gl/forms/9hGCntzMMOh6MyAp1...
Nächste SlideShare
Wird geladen in …5
×

Web aula 46 - Conhecendo o ecossistema BIG DATA

152 Aufrufe

Veröffentlicht am

Web aula 46 -Conhecendo o ecossistema BIG DATA
Link para aula: http://bit.ly/wa46-bigdata

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Web aula 46 - Conhecendo o ecossistema BIG DATA

  1. 1. Web aula 46: Conhecendo o ecossistema BIG DATA Fábio Jardim https://www.linkedin.com/in/fjardim/ fabiogjardim@hotmail.com http://highct.com.br https://medium.com/@fbiojardim
  2. 2. www.projetoseti.com.br Fábio Jardim Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data Mais de 10 anos em plataforma de dados Vivência em grandes e-commerces, varejo e banco Arquiteto Big Data em projetos para grandes clientes Atualmente em projetos no setor varejista e startups Owner da High Consultoria e Treinamento https://www.linkedin.com/in/fjardim/ fabiogjardim@hotmail.com http://highct.com.br https://medium.com/@fbiojardim
  3. 3. www.projetoseti.com.br A evolução dos dados no nosso ambiente Milhões de transações IOT Bilhões de usuários em rede sociais gerando conteúdo a cada segundo Câmeras/Wifi espalhadas pelas lojas Cada vez mais pessoas usando smartphones/intern et ...
  4. 4. www.projetoseti.com.br Onde armazenar esses dados? Como extrair informações valiosas desses dados? Como realizar cruzamentos desses dados com outras fontes? Os dados que eu uso são os mesmos que você usa? Como processar tantos dados? Consigo prever o futuro?
  5. 5. www.projetoseti.com.br O Big Data Grande conjunto de dados que excedem a capacidade de armazenamento e processamento de dados convencional. Principais características: • Dados Estruturados, semi-estruturados e não estruturados • Volume muito grande de dados • Movem-se muito rápido • Análise complexas de dados
  6. 6. www.projetoseti.com.br Velocidade VariedadeVolume OS Vs
  7. 7. www.projetoseti.com.br Onde armazenar tudo isso? • Nasce o conceito de Data Lake. • Vasto repositório com uma variedade de informações brutas que podem ser adquiridas, processadas, analisadas e entregues. • Derivar insights relevantes para a empresa a partir desta informação usando vários algoritmos de análise e aprendizagem de máquinas.
  8. 8. www.projetoseti.com.br DW x Datalake Data Warehouse x DataLake Estruturado e Processado Dados Estruturado, semi-estruturado e não estruturado Dependente de esquema Processamento Livre de esquema Alto custo para grandes volumes Armazenamento Desenvolvido para baixo custo Configuração fixa, pouca agilidade Agilidade Configuração flexivel, alta agilidade Consolidada Segurança Evoluindo Área de negócios Usuários Data Scientists
  9. 9. www.projetoseti.com.br Big Data e Analytics Analytics Métodos e Algoritmos Big Data Data Mining Machine Learning Big Data Analytics Software
  10. 10. www.projetoseti.com.br O que é Hadoop • Plataforma que fornece infraestrutura resiliente, econômica e escalável • Armazenamento e processamento distribuído para grandes quantidades de dados • Precursor do ecossistema Big Data • 4 módulos na versão 2 HDFS, MapReduce, Hadoop Common e Yarn Mike Cafarella Doug Cutting
  11. 11. www.projetoseti.com.br O que é Hadoop 2002 2002 2004 2005 2006 2008 2003 2004 2006 2008 2010 Criação do Projeto Nutch Implentação OpenSource do GFS chamada NDFS (Nutch Distributed File System) Equipe do Nutch implement a versão OpenSourc e do MapReduce Doug Cutting entrou para o Yahoo! Hadoop se tornou um projeto independente dentro da Apache Google publica paper GFS (Google File System) Google publica paper MapReduce Criação do Projeto Hadoop (NDFS+ MapReduce) Yahoo! anunciou seu index de páginas web com cluster de 10.000 máquinas rodando Hadoop Facebook processa 40 petabyte s 2012 Apache Hadoop 1.0 disponíve l 2013 Apache Hadoop 2.2 disponíve l 2017 Apache Hadoop 2.8 disponíve l 2017
  12. 12. www.projetoseti.com.br Evolução do Ecossistema HDFS MapReduce 2006 Solr Pig HDFS MapReduce 2007 Hbase Zookeeper Solr Pig HDFS MapReduce 2008 Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2009 Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2010 Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2011 Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2012 Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2013 Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2014 Kudu RecordService Falcon Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume BigTop Oozie Hcatalog Hue Sqoop Avro Hive Mahout Hbase Zookeeper Solr Pig HDFS MapReduce 2015
  13. 13. www.projetoseti.com.br
  14. 14. www.projetoseti.com.br Principais distribuições
  15. 15. www.projetoseti.com.br Eu preciso de um ambiente Big Data? https://medium.com/via-varejo-arquitetura/voce-precisa-de-big-data-a373c59f3082
  16. 16. www.projetoseti.com.br Onde usar Big Data? Big Data Real Time BI Analytics DW Logs Batch Mensageria Distribuição de dados
  17. 17. www.projetoseti.com.br Ecossistema Open Source
  18. 18. www.projetoseti.com.br Ecossistema Open Source
  19. 19. www.projetoseti.com.br O que preciso saber?
  20. 20. www.projetoseti.com.br Os novos papéis Data Engineer • Processamento Batch e Real Time • Consolidação de dados • Preparação dos dados para o Data Scientist • Estrutura de dados • Banco de dados relacional e NoSql • Conhecimentos: Hive, Python, Scala, HDFS, Spark, Hbase, Sqoop, Linux, Storm, shell, etc… Big Data Architect • Definição de tecnologia • Conhecimento abrangente entre as áreas • Conhecimento nos diversos frameworks, linguagens de programação e banco de dados • Conhecimentos : Hadoop, Spark, Storm, Kafka, Flume, Solr, Hbase, Pig, Hive, Zookeeper, Python, Java, Scala, Cassandra, Sqoop, Linux, Shell, cloud, network, etc…
  21. 21. www.projetoseti.com.br O Data Scientist • Ajudar na resolução de problemas relacionados a negócios usando técnicas orientadas as dados • Aplicar técnicas de avançadas de analise de dados como Machine Learning, Deep Learning, Text analytics, etc... • Trabalhar com uma variedade de linguagens de programação assim como Python, R, SAS, Scala, etc... • Comunicar os resultados alcançados
  22. 22. www.projetoseti.com.br Quem usa Big Data no Brasil • Varejo • Industria • Governo • Marketing • Esporte • Medicina • Seguro • Agricultura • Finanças
  23. 23. www.projetoseti.com.br Nossos patrocinadores
  24. 24. www.projetoseti.com.br Nossas redes / Dúvidas e sugestões  Pesquisa de satisfação: https://goo.gl/forms/9hGCntzMMOh6MyAp1  Nosso site: http://www.projetoseti.com.br  Linkedin: https://lnkd.in/eFSjBgi  Facebook: https://fb.com/projetoseti.br  Youtube: https://youtube.com/user/CanalProjetoseTI  Twitter: @projetoseti  Críticas e sugestões: contato@projetoseti.com.br

×