SlideShare ist ein Scribd-Unternehmen logo
1 von 58
Downloaden Sie, um offline zu lesen
BigData – Cases e
oportunidades
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
binhara@azuris.com.br
Agenda
 O que é BigData e BI ?
 O que é um Cientista de Dados ?
 Porque e quando usar Bigdata ?
 Cases e Aplicações
 Oportunidades
 Ferramentas
Por que??? BigData ??? CloudComputing??
 Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
 Atualmente: menos de 6 mil dólares por Gene
 Atualmente o sequenciamento gerar cerca de
50petabyte de dados.
 1 semana para decodificar 1 Gene
 Atualmente: Se Faz o sequenciamento de 100 Gene
por dia
O que é BigData ?
O que é Um Cientista de Dados ?
 O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
 “Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011. Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
Curiosidades sobre ZetaBytes
Não confunda os conceitos
 CloudComputing – computação em nuvem
 BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
 BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
 Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações
Porque e Quando ?
Oportunidades
Stack de BigData
Database
Player Limits
 Oracle 6T
 MariaDB 6T
 Postegres 3T
 Mysql 3T
 SQLServer 1T
 *AWS Instance
ACID
Player Limits
 Oracle 6T
 MariaDB 6T
 Postegres 3T
 Mysql 3T
 SQLServer 1T
 *AWS Instance
ACID
Player Limits
 Oracle 6T
 MariaDB 6T
 Postegres 3T
 Mysql 3T
 SQLServer 1T
 *AWS Instance
ACID ACID
ACID ACID
Book
albuns
jeans
produtc
Product
Type:Book
titulo
Price
autor
pages
Product
Type:jeans
Id
Price
Detail
Model
Size
length
Product
Type:Album
Id
Price
track list
track 01
track 02
...
Compartivo
 SQL
 Banco Relacional
 Escalabilidade vertical
 Terabytes
 RAID, HDs rápidos
 Mais dados, troque o servidor
 BigTable
 Escalabilidade horizontal
 Petabytes
 CPU Rápida/ Baixo custo
 Padrão, HDs duráveis
 Mais dados, adicione mais
servidores
Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES
O que map reduce ?
 Estratégia de dividir para conquistar
 MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
 Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
 Processamento de dados base em batch
 A abstração limpa para programadores
 Paralelização automática e distribuição
 Tolerância a falhas
MapReduce
O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
 Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
 Permite que os aplicativos usem petabytes de dados em
paralelo.
Bigdata é o mundo do cobertor curto...
Processamento
 MapReduce 2 (yarn)
 Apache Spark
 Apache TEZ
 Apache Storm
BigTable
 HBASE
 Cassandra
SQL/DB
 Spark SQL
 Impala
 Hive
 Presto
Data Flow
 Flume (logs, files)
 Sqoop (sync,sql)
 Kafka (msg)
 Nifi (proc/dist)
Suporte e administração
 Oozie (workflow,sched)
 Zookeeper(coord,config)
 Ambari (monitor, managing)
Outros
 PIG, jaql, hive
 Mahout, Mlib, H2O
 Solar
 Zepelin
Visão Geral das Tecnologias
O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado,
 Linguagem R
 Matemática / Estatistica
 Sistemas de recomendação, IA
Analista Cloud
O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado,
 Linguagem R
 Matemática / Estatistica
 sistemas de recomendação, IA
Analista Cloud
BigData Developer
O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado,
 Linguagem R
 Matemática / Estatistica
 sistemas de recomendação, IA
Analista Cloud
Bigdata Arquitect
BigData Developer
O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado
 Linguagem R
 Matemática / Estatistica
 Sistemas de recomendação, IA
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer
O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado,
 Linguagem R
 Matemática / Estatistica
 Sistemas de recomendação, IA
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer
DBA – Analista de Negócio
Mercado em crescimento
 Amazon.com + Amazon AWS (+260mil funcionários)
 75 mil vagas empregos aberto no mundo
 Receita 107 Bilhões
 Valor atual $317 Bilhões
 Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte-
americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de
um novo conglomerado avaliado em mais de US$ 3 trilhões.
 Apple $521 bilhões
 Google $480 bilhões
 Microsoft $238Bilhões
Hadoop no FaceBook
 Cluster em produção
 4800 cores, 600 máquina, 16GB por máquina – Abril/2009
 8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
 4 SATA discos de 1 TB por máquina
 2 níveis de rede hierarquica, 40 máquinas por rack
 Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
 Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
 Atualmente eles moveram 30PB de para um novo Cluster
 Todos os dias o Facebook recebe 380milhões de novas fotos
Cluster no Yahoo
 É investidor da HortonWorks
 Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
Imagine....
BigData na Netflix....
 How Netflix Uses Analytics To Select Movies, Create Content, and Make
Multimillion Dollar Decisions
 “There are 33 million different versions of Netflix.”
 – Joris Evers, Director of Global Communications
 Sistema de Recomendação:
 Since 75% of viewer activity is based on these suggestions, I’d say it works pretty
well for them.
 https://blog.kissmetrics.com/how-netflix-uses-analytics/
Metricas da Netflix
 When you pause, rewind, or fast forward
 What day you watch content (Netflix has found people watch TV shows during the week
and movies during the weekend.)
 The date you watch
 What time you watch content
 Where you watch (zip code)
 What device you use to watch (Do you like to use your tablet for TV shows and your
Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)
 When you pause and leave content (and if you ever come back)
 The ratings given (about 4 million per day)
 Searches (about 3 million per day)
 Browsing and scrolling behavior
 Netflix also looks at data within movies. They take various “screen shots” to look at “in
the moment” characteristics. Netflix has confirmed they know when the credits start
rolling; but there’s far more to it than just that. Some have figured these
characteristics may be the volume, colors, and scenery that help Netflix find out what
users like.
House o Cards
 A netflix sabia que:
 Muitos usuários assistiram a David Fincher dirigiu o filme The Social
Networkfrom começo ao fim.
 A versão britânica de "House of Cards" tem sido bem assistida.
 Aqueles que assistiram a versão britânica "House of Cards" também
assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David
Fincher.
 Cada um desses 3 fatores sinérgicos tinha que conter um determinado
volume de usuários.A Netflix tinha um monte de usuários com todos os
3 fatores.
 O seriado trouxe em 2 milhões de novos assinantes nos EUA no
primeiro trimestre de 2013, que foi um aumento de 7% trouxe em
1 milhão de novos assinantes de outras partes do mundo.
 Em relação ao trimestre anterior. De acordo com The Wire
Atlântico, estes 3 milhões de assinantes quase pagou o custo de
House of Cards.
Seria Stranger Things uma obra de
arte do algoritmo da Netflix?
 Desta vez temos uma
série que costurou ET
com Conta Comigo,
 Alien com Carrie,
 Contatos Imediatos do
Terceiro Grau com Evil
Dead,
 Goonies com
Poltergeist,
 Além da Imaginação
com Chamas da
Vingança...
 Tudo isso estrelado por
dois dos atores mais
populares da década
perdida: Winona Ryder
e Matthew Modine.
Sistema de recomendação
Sistema de Recomendação
 Sistema de Recomendação de Produtos
 Vitrines inteligentes para lojas online
 Aumento em 60% o volume de faturamento das lojas
 Cluster com 70nós
 Mais de 1.5 milhões de transações por segundo
Case Uniter
 Problema: Inadimplência X Evasão
 180 mil alunos
 Crescimento de 40 milhões
registros por dia
 1,5 trilhões de registro em
SQLServer
 Comparações do passado/presente
 Evolução dos pagamentos atrasados
 Reflexo sob o sistema acadêmico
 Processamento em tempo hábil
O HADOOP Cluster HortonWorks
Com isso a demanda de relatórios que
depende de pesquisa histórica
Volume total 12 Trilhões de registros
Tempo médio de busca 20s algumas
instantâneas.
• Com combinações de nome de aluno,
disciplinas, turmas, cursos, data de entrada e
saída, data da informação, títulos emitidos,
renegociações, data de pagamento, valor de
titulo, valor pago.
SQLServer com base local de 600GB
Base no Hadoop é de 10TB
Sistema
BigData China
Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações realizadas pelo
software de análise.
 Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
 Velocidade acima de 10% do limite
 Velocidade acima de 20% do limite
 Avanço de Sinal
 Caminhão fora de horário
 Sobre a faixa de pedestre
CaseAGENT - Central inteligente de
Trânsito Semáforo inteligente
Exemplo de Relatório
 asd
Demonstração HortonWorks
 Gera sentimento em relação o IronMan 3
 Coleta do Stream do Twitter
 Dados do Twiter são salvos pelo flume no hadoop
 Com uma tabela de classificação de sentimento
 É processada a base e gerar informações a respeito do filme
Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futuro Cientista
de Dados (8h)
 Curso: DataScientist e BigData for
Bussines (16h)
 Curso: Apache Hadoop Fundamental
(24h)
 Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
 Treinamento Apache Sqoop (8h)
 Treinamento Apache Cassandra (16h)
 Treinamento HBase (16h)
 Treinamento Hive (16h)
 Treimento Mahout (16h)
 Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
 Curso de Splunk (16h)
 Curso Pig e Pig Latin (16h)
 Curos de Programaçao em MapReduce
com Java e C# (16h)
 Curso de Flume (16h)
Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br

Weitere ähnliche Inhalte

Was ist angesagt?

Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016
Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016
Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016Filipe Barretto
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon Web Services LATAM
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 
Bancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralBancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralPET Computação
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Amazon Web Services LATAM
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRAmazon Web Services LATAM
 
Instâncias spot para ambientes de produção sem comprometer a disponibilidade
Instâncias spot para ambientes de produção sem comprometer a disponibilidadeInstâncias spot para ambientes de produção sem comprometer a disponibilidade
Instâncias spot para ambientes de produção sem comprometer a disponibilidadeAmazon Web Services LATAM
 
Explorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraExplorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraAmazon Web Services LATAM
 
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...Amazon Web Services LATAM
 
Um framework para a Transformaçao da TI e do Negócio
Um framework para a Transformaçao da TI e do Negócio Um framework para a Transformaçao da TI e do Negócio
Um framework para a Transformaçao da TI e do Negócio Amazon Web Services LATAM
 
Apresentando o OpsWorks - Bemobi
Apresentando o OpsWorks - BemobiApresentando o OpsWorks - Bemobi
Apresentando o OpsWorks - BemobiRicardo Martins ☁
 

Was ist angesagt? (20)

Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016
Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016
Rio Cloud Computing Meetup 25/01/2017 - Lançamentos do AWS re:Invent 2016
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenho
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Padrões de Arquitetura na Nuvem da AWS
Padrões de Arquitetura na Nuvem da AWSPadrões de Arquitetura na Nuvem da AWS
Padrões de Arquitetura na Nuvem da AWS
 
Iniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDBIniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDB
 
Rodando SAP na AWS
Rodando SAP na AWSRodando SAP na AWS
Rodando SAP na AWS
 
Bancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geralBancos de dados nas nuvens: uma visão geral
Bancos de dados nas nuvens: uma visão geral
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
Instâncias spot para ambientes de produção sem comprometer a disponibilidade
Instâncias spot para ambientes de produção sem comprometer a disponibilidadeInstâncias spot para ambientes de produção sem comprometer a disponibilidade
Instâncias spot para ambientes de produção sem comprometer a disponibilidade
 
Explorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon AuroraExplorando o poder do banco de dados com Amazon Aurora
Explorando o poder do banco de dados com Amazon Aurora
 
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...
Utilizando a nuvem para proteger o mercado financeiro com segurança, agilidad...
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Iniciando com Amazon Aurora
Iniciando com Amazon AuroraIniciando com Amazon Aurora
Iniciando com Amazon Aurora
 
Um framework para a Transformaçao da TI e do Negócio
Um framework para a Transformaçao da TI e do Negócio Um framework para a Transformaçao da TI e do Negócio
Um framework para a Transformaçao da TI e do Negócio
 
Deep dive com Amazon Aurora
Deep dive com Amazon AuroraDeep dive com Amazon Aurora
Deep dive com Amazon Aurora
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Apresentando o OpsWorks - Bemobi
Apresentando o OpsWorks - BemobiApresentando o OpsWorks - Bemobi
Apresentando o OpsWorks - Bemobi
 

Andere mochten auch

Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Alessandro Binhara
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendiRodrigo Vieira
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...Igor Steinmacher
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webRobson Santos
 
Curso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoCurso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoAlessandro Binhara
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab msBonoBee
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaJoão Gabriel Lima
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra Otávio Santana
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMatheus Pereira
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com PythonAna Paula Gomes
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...João Gabriel Lima
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoDalton Martins
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013PentahoBrasil
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crmRamón Díaz
 
Desenvolvendo mvp com python
Desenvolvendo mvp com pythonDesenvolvendo mvp com python
Desenvolvendo mvp com pythonBruno Rocha
 

Andere mochten auch (20)

Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.Desenvolvimento de Games para Mobile.
Desenvolvimento de Games para Mobile.
 
Xamarin plataform
Xamarin plataformXamarin plataform
Xamarin plataform
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendi
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
 
Curso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto BasicoCurso C# em Mono - Orientação a Objeto Basico
Curso C# em Mono - Orientação a Objeto Basico
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com Python
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
 
Cases big data
Cases big dataCases big data
Cases big data
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crm
 
Desenvolvendo mvp com python
Desenvolvendo mvp com pythonDesenvolvendo mvp com python
Desenvolvendo mvp com python
 

Ähnlich wie BigData e Business Intelligence

BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaFabíola Fernandes
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Paulo Ricardo Santos
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 

Ähnlich wie BigData e Business Intelligence (20)

BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data
Big DataBig Data
Big Data
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à prática
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data
Big DataBig Data
Big Data
 
Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Apresentação
ApresentaçãoApresentação
Apresentação
 

Mehr von Alessandro Binhara

Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxAlessandro Binhara
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediLatinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediAlessandro Binhara
 
2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtualAlessandro Binhara
 
Realidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareRealidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareAlessandro Binhara
 
Realidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosRealidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosAlessandro Binhara
 
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...Alessandro Binhara
 
Apresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicApresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicAlessandro Binhara
 
App CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneApp CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneAlessandro Binhara
 
Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Alessandro Binhara
 
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!Alessandro Binhara
 
Interop itcare: Interoperabilidade Java e .NET
Interop itcare: Interoperabilidade Java e .NETInterop itcare: Interoperabilidade Java e .NET
Interop itcare: Interoperabilidade Java e .NETAlessandro Binhara
 
Projeto MonoBrasil: O retorno no Jedi
Projeto MonoBrasil: O retorno no JediProjeto MonoBrasil: O retorno no Jedi
Projeto MonoBrasil: O retorno no JediAlessandro Binhara
 
Mono mecadocoorporativo-latino2010
Mono mecadocoorporativo-latino2010Mono mecadocoorporativo-latino2010
Mono mecadocoorporativo-latino2010Alessandro Binhara
 

Mehr von Alessandro Binhara (20)

Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jediLatinoware 2019 - DEsenvolvimento mobile em Nivel jedi
Latinoware 2019 - DEsenvolvimento mobile em Nivel jedi
 
2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual2019 latinoware - O mundo novo da realidade virtual
2019 latinoware - O mundo novo da realidade virtual
 
Realidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinowareRealidade Virtual e a Ciência de Dados -latinoware
Realidade Virtual e a Ciência de Dados -latinoware
 
Realidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de DadosRealidade Virtual e a Ciência de Dados
Realidade Virtual e a Ciência de Dados
 
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...A IMPORTÂNCIA DA PARTICIPAÇÃO NA  GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
A IMPORTÂNCIA DA PARTICIPAÇÃO NA GESTÃO DE PROJETOS TECNOLÓGICOS INOVADORES:...
 
Curso de Férias - Robótica
Curso de Férias -  Robótica Curso de Férias -  Robótica
Curso de Férias - Robótica
 
Games imersivos
Games imersivosGames imersivos
Games imersivos
 
Abertura - interopmix2014
Abertura - interopmix2014Abertura - interopmix2014
Abertura - interopmix2014
 
Treinamento csharp mono
Treinamento csharp monoTreinamento csharp mono
Treinamento csharp mono
 
Int305 projeto mono-final
Int305 projeto mono-finalInt305 projeto mono-final
Int305 projeto mono-final
 
Apresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasicApresentação Final a FINEP Projeto MonoBasic
Apresentação Final a FINEP Projeto MonoBasic
 
App CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhoneApp CrossMobile com C# para Android, Iphone e WindowsPhone
App CrossMobile com C# para Android, Iphone e WindowsPhone
 
Xamarin Interop - hands on android -
Xamarin Interop - hands on android - Xamarin Interop - hands on android -
Xamarin Interop - hands on android -
 
Quarto Encontro GUX
Quarto Encontro GUX Quarto Encontro GUX
Quarto Encontro GUX
 
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!
Usando c# para desenvolver app iphone e ipad!!! sim é possível!!!
 
Interop itcare: Interoperabilidade Java e .NET
Interop itcare: Interoperabilidade Java e .NETInterop itcare: Interoperabilidade Java e .NET
Interop itcare: Interoperabilidade Java e .NET
 
Projeto MonoBrasil: O retorno no Jedi
Projeto MonoBrasil: O retorno no JediProjeto MonoBrasil: O retorno no Jedi
Projeto MonoBrasil: O retorno no Jedi
 
Mono mecadocoorporativo-latino2010
Mono mecadocoorporativo-latino2010Mono mecadocoorporativo-latino2010
Mono mecadocoorporativo-latino2010
 

BigData e Business Intelligence

  • 1. BigData – Cases e oportunidades Alessandro de Oliveira Binhara Data Scientist – Horton Works System Integrator binhara@azuris.com.br
  • 2. Agenda  O que é BigData e BI ?  O que é um Cientista de Dados ?  Porque e quando usar Bigdata ?  Cases e Aplicações  Oportunidades  Ferramentas
  • 3.
  • 4. Por que??? BigData ??? CloudComputing??  Em 2001 : Centenas de milhares de dólares para sequenciar um Gene  Atualmente: menos de 6 mil dólares por Gene  Atualmente o sequenciamento gerar cerca de 50petabyte de dados.  1 semana para decodificar 1 Gene  Atualmente: Se Faz o sequenciamento de 100 Gene por dia
  • 5. O que é BigData ?
  • 6. O que é Um Cientista de Dados ?  O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional, portanto, é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira.  “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", diz o professor Renato Souza, responsável pelo mestrado de modelagem matemática da informação, da Fundação Getulio Vargas do Rio de Janeiro (FGV-RJ), lançado em 2011. Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.
  • 8. Não confunda os conceitos  CloudComputing – computação em nuvem  BigData – Armazenamento e Processamento de Grandes Volumes de Dados  BI Businnes Inteligence – Apresentar a informações de forma clara, sendo a fonte de inteligencia para os negocios  Cientista de Dados – é a pessoa capaz de orquestrar todos esses conceitos apresentando o valor que a empresa quer das informações
  • 13. Player Limits  Oracle 6T  MariaDB 6T  Postegres 3T  Mysql 3T  SQLServer 1T  *AWS Instance ACID
  • 14. Player Limits  Oracle 6T  MariaDB 6T  Postegres 3T  Mysql 3T  SQLServer 1T  *AWS Instance ACID
  • 15. Player Limits  Oracle 6T  MariaDB 6T  Postegres 3T  Mysql 3T  SQLServer 1T  *AWS Instance ACID ACID
  • 18. Compartivo  SQL  Banco Relacional  Escalabilidade vertical  Terabytes  RAID, HDs rápidos  Mais dados, troque o servidor  BigTable  Escalabilidade horizontal  Petabytes  CPU Rápida/ Baixo custo  Padrão, HDs duráveis  Mais dados, adicione mais servidores
  • 19. Bigatable is a sparse, distributed persistence multidimensional sorted map. PETABYTES
  • 20. O que map reduce ?  Estratégia de dividir para conquistar  MapReduce é um modelo de programação e implementação associados para o processamento e geração de grandes conjuntos de dados (Jeffrey Dean e Sanjay Ghemawat, 2004)  Baseado em um modelo de programação funcional (como Lisp, Ml, etc)  Processamento de dados base em batch  A abstração limpa para programadores  Paralelização automática e distribuição  Tolerância a falhas
  • 22. O que é Hadoop ?  O Apache Hadoop é um projeto desenvolvimento como open- source software para escalável , confiável e com processamento distribuído.  Um sistema escalável e confiável para armazenamento compartilhado e análises.  Ele automaticamente trata da replicação de dados e das falhas em cada nó.  Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados  Permite que os aplicativos usem petabytes de dados em paralelo.
  • 23. Bigdata é o mundo do cobertor curto...
  • 24.
  • 25. Processamento  MapReduce 2 (yarn)  Apache Spark  Apache TEZ  Apache Storm
  • 27. SQL/DB  Spark SQL  Impala  Hive  Presto
  • 28. Data Flow  Flume (logs, files)  Sqoop (sync,sql)  Kafka (msg)  Nifi (proc/dist)
  • 29. Suporte e administração  Oozie (workflow,sched)  Zookeeper(coord,config)  Ambari (monitor, managing)
  • 30. Outros  PIG, jaql, hive  Mahout, Mlib, H2O  Solar  Zepelin
  • 31. Visão Geral das Tecnologias
  • 32. O que eu preciso saber para trabalhar com bigdata  TCPIP, Redes, Instraestrutura  Linux / UNIX  Bash  Cloud Computin (Azure, AWS etc)  Data Ingestion, Flume, HDFS  Java, MapReduce , Yarn, TEZ  Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House  Bussines Inteligence  Java , Scala, Python  Processamento de Streaming , Spark, Kafka  Maquinas de aprendizado,  Linguagem R  Matemática / Estatistica  Sistemas de recomendação, IA Analista Cloud
  • 33. O que eu preciso saber para trabalhar com bigdata  TCPIP, Redes, Instraestrutura  Linux / UNIX  Bash  Cloud Computin (Azure, AWS etc)  Data Ingestion, Flume, HDFS  Java, MapReduce , Yarn, TEZ  Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House  Bussines Inteligence  Java , Scala, Python  Processamento de Streaming , Spark, Kafka  Maquinas de aprendizado,  Linguagem R  Matemática / Estatistica  sistemas de recomendação, IA Analista Cloud BigData Developer
  • 34. O que eu preciso saber para trabalhar com bigdata  TCPIP, Redes, Instraestrutura  Linux / UNIX  Bash  Cloud Computin (Azure, AWS etc)  Data Ingestion, Flume, HDFS  Java, MapReduce , Yarn, TEZ  Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House  Bussines Inteligence  Java , Scala, Python  Processamento de Streaming , Spark, Kafka  Maquinas de aprendizado,  Linguagem R  Matemática / Estatistica  sistemas de recomendação, IA Analista Cloud Bigdata Arquitect BigData Developer
  • 35. O que eu preciso saber para trabalhar com bigdata  TCPIP, Redes, Instraestrutura  Linux / UNIX  Bash  Cloud Computin (Azure, AWS etc)  Data Ingestion, Flume, HDFS  Java, MapReduce , Yarn, TEZ  Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House  Bussines Inteligence  Java , Scala, Python  Processamento de Streaming , Spark, Kafka  Maquinas de aprendizado  Linguagem R  Matemática / Estatistica  Sistemas de recomendação, IA Analista Cloud Data Cientist Bigdata Arquitect BigData Developer
  • 36. O que eu preciso saber para trabalhar com bigdata  TCPIP, Redes, Instraestrutura  Linux / UNIX  Bash  Cloud Computin (Azure, AWS etc)  Data Ingestion, Flume, HDFS  Java, MapReduce , Yarn, TEZ  Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House  Bussines Inteligence  Java , Scala, Python  Processamento de Streaming , Spark, Kafka  Maquinas de aprendizado,  Linguagem R  Matemática / Estatistica  Sistemas de recomendação, IA Analista Cloud Data Cientist Bigdata Arquitect BigData Developer DBA – Analista de Negócio
  • 37. Mercado em crescimento  Amazon.com + Amazon AWS (+260mil funcionários)  75 mil vagas empregos aberto no mundo  Receita 107 Bilhões  Valor atual $317 Bilhões  Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte- americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de um novo conglomerado avaliado em mais de US$ 3 trilhões.  Apple $521 bilhões  Google $480 bilhões  Microsoft $238Bilhões
  • 38. Hadoop no FaceBook  Cluster em produção  4800 cores, 600 máquina, 16GB por máquina – Abril/2009  8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009  4 SATA discos de 1 TB por máquina  2 níveis de rede hierarquica, 40 máquinas por rack  Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009  Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage.  Atualmente eles moveram 30PB de para um novo Cluster  Todos os dias o Facebook recebe 380milhões de novas fotos
  • 39. Cluster no Yahoo  É investidor da HortonWorks  Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
  • 40. Uso Comum do Hadoop – Case ... 1. Social Entenda como seus clientes se sentem sobre a sua marca e produtos – agora 2. Clickstream Capturar e analisar as pistas de dados visitantes do site e otimizar seu site 3. Sensor/Machine Descobrir padrões nos dados que fluem automaticamente a partir de sensores e máquinas remotas 4. Geolocation Analisar dados baseados em localização para gerenciar as operações onde ocorrem 5. Server Logs Log de pesquisa para diagnosticar falhas no processo e prevenir violações de segurança 6. Unstructured (text, video, pictures, etc..) Compreender padrões de texto através de milhões de produtos de trabalho não estruturados: páginas web, e- mails, vídeos, fotos e documentos Valor
  • 42. BigData na Netflix....  How Netflix Uses Analytics To Select Movies, Create Content, and Make Multimillion Dollar Decisions  “There are 33 million different versions of Netflix.”  – Joris Evers, Director of Global Communications  Sistema de Recomendação:  Since 75% of viewer activity is based on these suggestions, I’d say it works pretty well for them.  https://blog.kissmetrics.com/how-netflix-uses-analytics/
  • 43. Metricas da Netflix  When you pause, rewind, or fast forward  What day you watch content (Netflix has found people watch TV shows during the week and movies during the weekend.)  The date you watch  What time you watch content  Where you watch (zip code)  What device you use to watch (Do you like to use your tablet for TV shows and your Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)  When you pause and leave content (and if you ever come back)  The ratings given (about 4 million per day)  Searches (about 3 million per day)  Browsing and scrolling behavior  Netflix also looks at data within movies. They take various “screen shots” to look at “in the moment” characteristics. Netflix has confirmed they know when the credits start rolling; but there’s far more to it than just that. Some have figured these characteristics may be the volume, colors, and scenery that help Netflix find out what users like.
  • 44. House o Cards  A netflix sabia que:  Muitos usuários assistiram a David Fincher dirigiu o filme The Social Networkfrom começo ao fim.  A versão britânica de "House of Cards" tem sido bem assistida.  Aqueles que assistiram a versão britânica "House of Cards" também assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David Fincher.  Cada um desses 3 fatores sinérgicos tinha que conter um determinado volume de usuários.A Netflix tinha um monte de usuários com todos os 3 fatores.  O seriado trouxe em 2 milhões de novos assinantes nos EUA no primeiro trimestre de 2013, que foi um aumento de 7% trouxe em 1 milhão de novos assinantes de outras partes do mundo.  Em relação ao trimestre anterior. De acordo com The Wire Atlântico, estes 3 milhões de assinantes quase pagou o custo de House of Cards.
  • 45. Seria Stranger Things uma obra de arte do algoritmo da Netflix?  Desta vez temos uma série que costurou ET com Conta Comigo,  Alien com Carrie,  Contatos Imediatos do Terceiro Grau com Evil Dead,  Goonies com Poltergeist,  Além da Imaginação com Chamas da Vingança...  Tudo isso estrelado por dois dos atores mais populares da década perdida: Winona Ryder e Matthew Modine.
  • 47. Sistema de Recomendação  Sistema de Recomendação de Produtos  Vitrines inteligentes para lojas online  Aumento em 60% o volume de faturamento das lojas  Cluster com 70nós  Mais de 1.5 milhões de transações por segundo
  • 48. Case Uniter  Problema: Inadimplência X Evasão  180 mil alunos  Crescimento de 40 milhões registros por dia  1,5 trilhões de registro em SQLServer  Comparações do passado/presente  Evolução dos pagamentos atrasados  Reflexo sob o sistema acadêmico  Processamento em tempo hábil O HADOOP Cluster HortonWorks Com isso a demanda de relatórios que depende de pesquisa histórica Volume total 12 Trilhões de registros Tempo médio de busca 20s algumas instantâneas. • Com combinações de nome de aluno, disciplinas, turmas, cursos, data de entrada e saída, data da informação, títulos emitidos, renegociações, data de pagamento, valor de titulo, valor pago. SQLServer com base local de 600GB Base no Hadoop é de 10TB
  • 50. Captura e Processamento dos Vídeos  As imagens são capturadas e processadas em tempo real.  Podemos notar as marcações realizadas pelo software de análise.  Ele consegue identificar os carros em movimentos e verificar várias infrações, como :  Velocidade acima de 10% do limite  Velocidade acima de 20% do limite  Avanço de Sinal  Caminhão fora de horário  Sobre a faixa de pedestre
  • 51. CaseAGENT - Central inteligente de Trânsito Semáforo inteligente
  • 53. Demonstração HortonWorks  Gera sentimento em relação o IronMan 3  Coleta do Stream do Twitter  Dados do Twiter são salvos pelo flume no hadoop  Com uma tabela de classificação de sentimento  É processada a base e gerar informações a respeito do filme
  • 54.
  • 55.
  • 56. Treinamentos Presencias, On-line e Semipresenciais  Curso: Apache Hadoop Essencial (8horas )  Curso: Introdução ao Futuro Cientista de Dados (8h)  Curso: DataScientist e BigData for Bussines (16h)  Curso: Apache Hadoop Fundamental (24h)  Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)  Treinamento Apache Sqoop (8h)  Treinamento Apache Cassandra (16h)  Treinamento HBase (16h)  Treinamento Hive (16h)  Treimento Mahout (16h)  Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout (30h)  Curso de Splunk (16h)  Curso Pig e Pig Latin (16h)  Curos de Programaçao em MapReduce com Java e C# (16h)  Curso de Flume (16h)
  • 57.