SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
Big Data:
Ferramentas Open
Source para Análise
e Processamento de
Dados
OLÁ!
João Marcos Araújo do Valle
Bacharel em Ciências e Tecnologias pela UFRN
Graduando em Engenharia da Computação pela
UFRN, com ênfase em Engenharia de Dados e
Sistemas Distribuídos
2
1.
O que é Big Data?
E porque estudar isso?
3
O que é Big Data?
› Grandes Conjuntos de Dados
› Estruturados ou não estruturados
› E porquê estudar Big Data?
4
“Nossa meta é transformar
dados em informação, e
informação em conhecimento.
Carly Fiorina.”
5
Mas nem tudo são flores...
Existem problemas ao se analisar dados:
› Problemas de Capacidade de Hardware
› Problemas de Tempo de Processamento
6
Apache
Foundation
7
193 Projetos
A Apache Foundation
apresenta mais de 190
projetos de alto nível
Apache Foundation
Mais de 300...
Apresenta mais de 300
projetos e subprojetos de
alto e baixo nível, e é uma
das maiores fundações de
Open Source do mundo
8
Apache
Hadoop
9
Mais é melhor
Um sistema distribuído junta
a capacidade computacional
de vários computadores em
um só
Sistema Distribuído
10
Mas eu não tenho mais de um
computador :(
Hadoop MapReduce
Técnica de Paralelização de
Processamento, executada
localmente em apenas um
computador
11
Eu também não!
“Eu sou mais do que uma
ferramenta de criação de
sistemas distribuídos!” Hadoop,
2005.
12
MapReduce
MapReduce Funciona com PYTHON!!!
13
E Java, C, C++, Ruby, Perl, Scala… Basicamente, com qualquer
linguagem de programação.
E se 5x mais rápido não for o suficiente???
A Apache Foundation nos salva novamente!
PROBLEMA!!!
14
Apache
Spark
15
Até 100x mais rápido!!
Apache Spark é até 100x
mais que o MapReduce
Muito mais rápido
16
E porque é mais rápido?
17
Direto na RAM
O Apache Spark utiliza a
memória RAM para o
processamento
Feito sobre medida
Feito especialmente para o
processamento de Big Data
Spark Funciona com Python!!!
18
E Java, Scala, R.... e só.
E se eu não quiser uma ferramenta tão
completa?
19
Apesar de completa e com várias bibliotecas, o Spark
é uma linguagem pesada.
Apache
Pig
20
Ferramenta de Scripting
21
Muito rápido
Apresenta um conjunto limitado
de funções altamente
paralelizadas.
Possui linguagem própria
A linguagem chamada Pig Latin,
feita especialmente para
processamento paralelo e alto
desempenho
Ferramentas de
Armazenamento
para Big Data
22
MongoDB
23
NoSQL + Sistemas Distribuídos
Buscas Rápidas
O MongoDB consegue fazer
buscas altamente otimizadas, e
em um ótimo tempo hábil.
24
Replicação automática
O MongoDB apresenta módulos
de replicação automática de
dados, que garantem
permanência dos dados
Nosso processo de Big Data
Sistema
Distribuído
MapReduce
Spark
Pig
MongoDB
25
Links úteis:
Hadoop Cloudera:
https://www.cloudera.com/downloads/quickstart_vms/5-13.html
Introdução ao Apache Spark - DevMedia:
https://www.devmedia.com.br/introducao-ao-apache-spark/34178
Introdução ao Apache Hadoop - DevMedia:
https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034
DataScienceAcademy - Fundamentos de Big Data (Curso GRATUITO):
https://www.datascienceacademy.com.br/course?courseid=big-data-fundamentos
26
MongoUniversity - Cursos de MongoDB (GRATUITOS):
https://university.mongodb.com/
Curso de Apache Pig (GRATUITO):
https://cognitiveclass.ai/courses/introduction-to-pig/
Links úteis:
27
Obrigado!
Perguntas?
Contato:
GitHub: https://github.com/jm-valle
E-mail: jmarcos.araujo96@gmail.com
Telegram: @Jomazz
28

Weitere ähnliche Inhalte

Ähnlich wie Ferramentas Open Source Big Data Análise

Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache HadoopVinícius Barros
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
Congresso iii unifacsv3
Congresso iii unifacsv3Congresso iii unifacsv3
Congresso iii unifacsv3IP10
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Sistemas Operacionais - Aula 4 - Revisão e Exercícios
Sistemas Operacionais - Aula 4 - Revisão e ExercíciosSistemas Operacionais - Aula 4 - Revisão e Exercícios
Sistemas Operacionais - Aula 4 - Revisão e ExercíciosCharles Fortes
 
Congresso iv
Congresso ivCongresso iv
Congresso ivIP10
 

Ähnlich wie Ferramentas Open Source Big Data Análise (20)

Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache Hadoop
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Congresso iii unifacsv3
Congresso iii unifacsv3Congresso iii unifacsv3
Congresso iii unifacsv3
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Sistemas Operacionais - Aula 4 - Revisão e Exercícios
Sistemas Operacionais - Aula 4 - Revisão e ExercíciosSistemas Operacionais - Aula 4 - Revisão e Exercícios
Sistemas Operacionais - Aula 4 - Revisão e Exercícios
 
Congresso iv
Congresso ivCongresso iv
Congresso iv
 

Mehr von PotiLivre Sobrenome

Criando seus próprios LIVROS DIGITAIS usando Software Livre
Criando seus próprios LIVROS DIGITAIS usando Software LivreCriando seus próprios LIVROS DIGITAIS usando Software Livre
Criando seus próprios LIVROS DIGITAIS usando Software LivrePotiLivre Sobrenome
 
Crackear o pacote Adobe é crime e você sabe disso!
Crackear o pacote Adobe é crime e você sabe disso!Crackear o pacote Adobe é crime e você sabe disso!
Crackear o pacote Adobe é crime e você sabe disso!PotiLivre Sobrenome
 
Você é espionado todos os dias: Saiba como se defender | TOR project
 Você é espionado todos os dias: Saiba como se defender | TOR project Você é espionado todos os dias: Saiba como se defender | TOR project
Você é espionado todos os dias: Saiba como se defender | TOR projectPotiLivre Sobrenome
 
lternativas livres para mapas e rotas com OSM e OSRM - Sedir Morais
lternativas livres para mapas e rotas com OSM e OSRM - Sedir Moraislternativas livres para mapas e rotas com OSM e OSRM - Sedir Morais
lternativas livres para mapas e rotas com OSM e OSRM - Sedir MoraisPotiLivre Sobrenome
 
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...PotiLivre Sobrenome
 
Thayron Arrais - AWS Amazon Web Services
Thayron Arrais - AWS Amazon Web ServicesThayron Arrais - AWS Amazon Web Services
Thayron Arrais - AWS Amazon Web ServicesPotiLivre Sobrenome
 
Security updates por que voce deveria aceitar os updates da sua distro leo...
Security updates  por que voce deveria aceitar os updates da sua distro   leo...Security updates  por que voce deveria aceitar os updates da sua distro   leo...
Security updates por que voce deveria aceitar os updates da sua distro leo...PotiLivre Sobrenome
 
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018PotiLivre Sobrenome
 
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...PotiLivre Sobrenome
 
LibreFlix-org - FLISOL Natal 2018
LibreFlix-org - FLISOL Natal 2018LibreFlix-org - FLISOL Natal 2018
LibreFlix-org - FLISOL Natal 2018PotiLivre Sobrenome
 
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018PotiLivre Sobrenome
 
O desafio de levar a filosofia do Software Livre para o Rio Grande do Norte
O desafio de levar a filosofia do Software Livre para o Rio Grande do NorteO desafio de levar a filosofia do Software Livre para o Rio Grande do Norte
O desafio de levar a filosofia do Software Livre para o Rio Grande do NortePotiLivre Sobrenome
 
Softwares Educativos Livres e Recursos Educacionais abertos para Matematica
Softwares Educativos Livres e Recursos Educacionais abertos para MatematicaSoftwares Educativos Livres e Recursos Educacionais abertos para Matematica
Softwares Educativos Livres e Recursos Educacionais abertos para MatematicaPotiLivre Sobrenome
 
Softwares Educativos Livres - PotiCon 2016
Softwares Educativos Livres - PotiCon 2016Softwares Educativos Livres - PotiCon 2016
Softwares Educativos Livres - PotiCon 2016PotiLivre Sobrenome
 
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...PotiLivre Sobrenome
 
O que e joomla - Jose Roberto - Encontro PotiLivre
O que e joomla - Jose Roberto - Encontro PotiLivreO que e joomla - Jose Roberto - Encontro PotiLivre
O que e joomla - Jose Roberto - Encontro PotiLivrePotiLivre Sobrenome
 
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia Gomes
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia GomesRuby on Rails como deve ser utilizada e onde - Julio Cartier Maia Gomes
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia GomesPotiLivre Sobrenome
 

Mehr von PotiLivre Sobrenome (20)

Gestão de ativos com o GPLI
Gestão de ativos com o GPLIGestão de ativos com o GPLI
Gestão de ativos com o GPLI
 
O poder do software livre
O poder do software livreO poder do software livre
O poder do software livre
 
Criando seus próprios LIVROS DIGITAIS usando Software Livre
Criando seus próprios LIVROS DIGITAIS usando Software LivreCriando seus próprios LIVROS DIGITAIS usando Software Livre
Criando seus próprios LIVROS DIGITAIS usando Software Livre
 
Crackear o pacote Adobe é crime e você sabe disso!
Crackear o pacote Adobe é crime e você sabe disso!Crackear o pacote Adobe é crime e você sabe disso!
Crackear o pacote Adobe é crime e você sabe disso!
 
Você é espionado todos os dias: Saiba como se defender | TOR project
 Você é espionado todos os dias: Saiba como se defender | TOR project Você é espionado todos os dias: Saiba como se defender | TOR project
Você é espionado todos os dias: Saiba como se defender | TOR project
 
lternativas livres para mapas e rotas com OSM e OSRM - Sedir Morais
lternativas livres para mapas e rotas com OSM e OSRM - Sedir Moraislternativas livres para mapas e rotas com OSM e OSRM - Sedir Morais
lternativas livres para mapas e rotas com OSM e OSRM - Sedir Morais
 
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...
Facilitando o uso de RegEx em Python através de um pacote de código aberto - ...
 
Thayron Arrais - AWS Amazon Web Services
Thayron Arrais - AWS Amazon Web ServicesThayron Arrais - AWS Amazon Web Services
Thayron Arrais - AWS Amazon Web Services
 
Igor Oliveira - Puppet
Igor Oliveira - PuppetIgor Oliveira - Puppet
Igor Oliveira - Puppet
 
Security updates por que voce deveria aceitar os updates da sua distro leo...
Security updates  por que voce deveria aceitar os updates da sua distro   leo...Security updates  por que voce deveria aceitar os updates da sua distro   leo...
Security updates por que voce deveria aceitar os updates da sua distro leo...
 
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018
Como ganhar dinheiro com Software Livre Matheus Oliveira Flisol Natal 2018
 
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...
Mudando para o Software Livre sem complicacao - Diogenes Dantas - FLISOL Nata...
 
LibreFlix-org - FLISOL Natal 2018
LibreFlix-org - FLISOL Natal 2018LibreFlix-org - FLISOL Natal 2018
LibreFlix-org - FLISOL Natal 2018
 
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018
O que e Software Livre, Comunidade PotiLivre e FLISOL - FLISOL Natal 2018
 
O desafio de levar a filosofia do Software Livre para o Rio Grande do Norte
O desafio de levar a filosofia do Software Livre para o Rio Grande do NorteO desafio de levar a filosofia do Software Livre para o Rio Grande do Norte
O desafio de levar a filosofia do Software Livre para o Rio Grande do Norte
 
Softwares Educativos Livres e Recursos Educacionais abertos para Matematica
Softwares Educativos Livres e Recursos Educacionais abertos para MatematicaSoftwares Educativos Livres e Recursos Educacionais abertos para Matematica
Softwares Educativos Livres e Recursos Educacionais abertos para Matematica
 
Softwares Educativos Livres - PotiCon 2016
Softwares Educativos Livres - PotiCon 2016Softwares Educativos Livres - PotiCon 2016
Softwares Educativos Livres - PotiCon 2016
 
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...
Minicurso introducao a plataforma arduino nathecia cunha e alcimar medeiros -...
 
O que e joomla - Jose Roberto - Encontro PotiLivre
O que e joomla - Jose Roberto - Encontro PotiLivreO que e joomla - Jose Roberto - Encontro PotiLivre
O que e joomla - Jose Roberto - Encontro PotiLivre
 
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia Gomes
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia GomesRuby on Rails como deve ser utilizada e onde - Julio Cartier Maia Gomes
Ruby on Rails como deve ser utilizada e onde - Julio Cartier Maia Gomes
 

Ferramentas Open Source Big Data Análise

  • 1. Big Data: Ferramentas Open Source para Análise e Processamento de Dados
  • 2. OLÁ! João Marcos Araújo do Valle Bacharel em Ciências e Tecnologias pela UFRN Graduando em Engenharia da Computação pela UFRN, com ênfase em Engenharia de Dados e Sistemas Distribuídos 2
  • 3. 1. O que é Big Data? E porque estudar isso? 3
  • 4. O que é Big Data? › Grandes Conjuntos de Dados › Estruturados ou não estruturados › E porquê estudar Big Data? 4
  • 5. “Nossa meta é transformar dados em informação, e informação em conhecimento. Carly Fiorina.” 5
  • 6. Mas nem tudo são flores... Existem problemas ao se analisar dados: › Problemas de Capacidade de Hardware › Problemas de Tempo de Processamento 6
  • 8. 193 Projetos A Apache Foundation apresenta mais de 190 projetos de alto nível Apache Foundation Mais de 300... Apresenta mais de 300 projetos e subprojetos de alto e baixo nível, e é uma das maiores fundações de Open Source do mundo 8
  • 10. Mais é melhor Um sistema distribuído junta a capacidade computacional de vários computadores em um só Sistema Distribuído 10
  • 11. Mas eu não tenho mais de um computador :( Hadoop MapReduce Técnica de Paralelização de Processamento, executada localmente em apenas um computador 11 Eu também não! “Eu sou mais do que uma ferramenta de criação de sistemas distribuídos!” Hadoop, 2005.
  • 13. MapReduce Funciona com PYTHON!!! 13 E Java, C, C++, Ruby, Perl, Scala… Basicamente, com qualquer linguagem de programação.
  • 14. E se 5x mais rápido não for o suficiente??? A Apache Foundation nos salva novamente! PROBLEMA!!! 14
  • 16. Até 100x mais rápido!! Apache Spark é até 100x mais que o MapReduce Muito mais rápido 16
  • 17. E porque é mais rápido? 17 Direto na RAM O Apache Spark utiliza a memória RAM para o processamento Feito sobre medida Feito especialmente para o processamento de Big Data
  • 18. Spark Funciona com Python!!! 18 E Java, Scala, R.... e só.
  • 19. E se eu não quiser uma ferramenta tão completa? 19 Apesar de completa e com várias bibliotecas, o Spark é uma linguagem pesada.
  • 21. Ferramenta de Scripting 21 Muito rápido Apresenta um conjunto limitado de funções altamente paralelizadas. Possui linguagem própria A linguagem chamada Pig Latin, feita especialmente para processamento paralelo e alto desempenho
  • 24. NoSQL + Sistemas Distribuídos Buscas Rápidas O MongoDB consegue fazer buscas altamente otimizadas, e em um ótimo tempo hábil. 24 Replicação automática O MongoDB apresenta módulos de replicação automática de dados, que garantem permanência dos dados
  • 25. Nosso processo de Big Data Sistema Distribuído MapReduce Spark Pig MongoDB 25
  • 26. Links úteis: Hadoop Cloudera: https://www.cloudera.com/downloads/quickstart_vms/5-13.html Introdução ao Apache Spark - DevMedia: https://www.devmedia.com.br/introducao-ao-apache-spark/34178 Introdução ao Apache Hadoop - DevMedia: https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034 DataScienceAcademy - Fundamentos de Big Data (Curso GRATUITO): https://www.datascienceacademy.com.br/course?courseid=big-data-fundamentos 26
  • 27. MongoUniversity - Cursos de MongoDB (GRATUITOS): https://university.mongodb.com/ Curso de Apache Pig (GRATUITO): https://cognitiveclass.ai/courses/introduction-to-pig/ Links úteis: 27