O documento discute Big Data, casos e oportunidades. Ele apresenta conceitos como Big Data, Business Intelligence, cientista de dados e ferramentas como Hadoop, Spark e Kafka. Também apresenta exemplos de uso em empresas como Netflix, Facebook e casos de sucesso como House of Cards.
1. BigData – Cases e
oportunidades
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
binhara@azuris.com.br
2. Agenda
O que é BigData e BI ?
O que é um Cientista de Dados ?
Porque e quando usar Bigdata ?
Cases e Aplicações
Oportunidades
Ferramentas
3.
4. Por que??? BigData ??? CloudComputing??
Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
Atualmente: menos de 6 mil dólares por Gene
Atualmente o sequenciamento gerar cerca de
50petabyte de dados.
1 semana para decodificar 1 Gene
Atualmente: Se Faz o sequenciamento de 100 Gene
por dia
6. O que é Um Cientista de Dados ?
O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
“Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011. Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
8. Não confunda os conceitos
CloudComputing – computação em nuvem
BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações
18. Compartivo
SQL
Banco Relacional
Escalabilidade vertical
Terabytes
RAID, HDs rápidos
Mais dados, troque o servidor
BigTable
Escalabilidade horizontal
Petabytes
CPU Rápida/ Baixo custo
Padrão, HDs duráveis
Mais dados, adicione mais
servidores
19. Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES
20. O que map reduce ?
Estratégia de dividir para conquistar
MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
Processamento de dados base em batch
A abstração limpa para programadores
Paralelização automática e distribuição
Tolerância a falhas
22. O que é Hadoop ?
O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
Um sistema escalável e confiável para armazenamento
compartilhado e análises.
Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
Permite que os aplicativos usem petabytes de dados em
paralelo.
32. O que eu preciso saber para trabalhar com bigdata
TCPIP, Redes, Instraestrutura
Linux / UNIX
Bash
Cloud Computin (Azure, AWS etc)
Data Ingestion, Flume, HDFS
Java, MapReduce , Yarn, TEZ
Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
Bussines Inteligence
Java , Scala, Python
Processamento de Streaming , Spark, Kafka
Maquinas de aprendizado,
Linguagem R
Matemática / Estatistica
Sistemas de recomendação, IA
Analista Cloud
33. O que eu preciso saber para trabalhar com bigdata
TCPIP, Redes, Instraestrutura
Linux / UNIX
Bash
Cloud Computin (Azure, AWS etc)
Data Ingestion, Flume, HDFS
Java, MapReduce , Yarn, TEZ
Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
Bussines Inteligence
Java , Scala, Python
Processamento de Streaming , Spark, Kafka
Maquinas de aprendizado,
Linguagem R
Matemática / Estatistica
sistemas de recomendação, IA
Analista Cloud
BigData Developer
34. O que eu preciso saber para trabalhar com bigdata
TCPIP, Redes, Instraestrutura
Linux / UNIX
Bash
Cloud Computin (Azure, AWS etc)
Data Ingestion, Flume, HDFS
Java, MapReduce , Yarn, TEZ
Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
Bussines Inteligence
Java , Scala, Python
Processamento de Streaming , Spark, Kafka
Maquinas de aprendizado,
Linguagem R
Matemática / Estatistica
sistemas de recomendação, IA
Analista Cloud
Bigdata Arquitect
BigData Developer
35. O que eu preciso saber para trabalhar com bigdata
TCPIP, Redes, Instraestrutura
Linux / UNIX
Bash
Cloud Computin (Azure, AWS etc)
Data Ingestion, Flume, HDFS
Java, MapReduce , Yarn, TEZ
Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
Bussines Inteligence
Java , Scala, Python
Processamento de Streaming , Spark, Kafka
Maquinas de aprendizado
Linguagem R
Matemática / Estatistica
Sistemas de recomendação, IA
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer
36. O que eu preciso saber para trabalhar com bigdata
TCPIP, Redes, Instraestrutura
Linux / UNIX
Bash
Cloud Computin (Azure, AWS etc)
Data Ingestion, Flume, HDFS
Java, MapReduce , Yarn, TEZ
Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
Bussines Inteligence
Java , Scala, Python
Processamento de Streaming , Spark, Kafka
Maquinas de aprendizado,
Linguagem R
Matemática / Estatistica
Sistemas de recomendação, IA
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer
DBA – Analista de Negócio
37. Mercado em crescimento
Amazon.com + Amazon AWS (+260mil funcionários)
75 mil vagas empregos aberto no mundo
Receita 107 Bilhões
Valor atual $317 Bilhões
Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte-
americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de
um novo conglomerado avaliado em mais de US$ 3 trilhões.
Apple $521 bilhões
Google $480 bilhões
Microsoft $238Bilhões
38. Hadoop no FaceBook
Cluster em produção
4800 cores, 600 máquina, 16GB por máquina – Abril/2009
8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
4 SATA discos de 1 TB por máquina
2 níveis de rede hierarquica, 40 máquinas por rack
Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
Atualmente eles moveram 30PB de para um novo Cluster
Todos os dias o Facebook recebe 380milhões de novas fotos
39. Cluster no Yahoo
É investidor da HortonWorks
Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
40. Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
42. BigData na Netflix....
How Netflix Uses Analytics To Select Movies, Create Content, and Make
Multimillion Dollar Decisions
“There are 33 million different versions of Netflix.”
– Joris Evers, Director of Global Communications
Sistema de Recomendação:
Since 75% of viewer activity is based on these suggestions, I’d say it works pretty
well for them.
https://blog.kissmetrics.com/how-netflix-uses-analytics/
43. Metricas da Netflix
When you pause, rewind, or fast forward
What day you watch content (Netflix has found people watch TV shows during the week
and movies during the weekend.)
The date you watch
What time you watch content
Where you watch (zip code)
What device you use to watch (Do you like to use your tablet for TV shows and your
Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)
When you pause and leave content (and if you ever come back)
The ratings given (about 4 million per day)
Searches (about 3 million per day)
Browsing and scrolling behavior
Netflix also looks at data within movies. They take various “screen shots” to look at “in
the moment” characteristics. Netflix has confirmed they know when the credits start
rolling; but there’s far more to it than just that. Some have figured these
characteristics may be the volume, colors, and scenery that help Netflix find out what
users like.
44. House o Cards
A netflix sabia que:
Muitos usuários assistiram a David Fincher dirigiu o filme The Social
Networkfrom começo ao fim.
A versão britânica de "House of Cards" tem sido bem assistida.
Aqueles que assistiram a versão britânica "House of Cards" também
assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David
Fincher.
Cada um desses 3 fatores sinérgicos tinha que conter um determinado
volume de usuários.A Netflix tinha um monte de usuários com todos os
3 fatores.
O seriado trouxe em 2 milhões de novos assinantes nos EUA no
primeiro trimestre de 2013, que foi um aumento de 7% trouxe em
1 milhão de novos assinantes de outras partes do mundo.
Em relação ao trimestre anterior. De acordo com The Wire
Atlântico, estes 3 milhões de assinantes quase pagou o custo de
House of Cards.
45. Seria Stranger Things uma obra de
arte do algoritmo da Netflix?
Desta vez temos uma
série que costurou ET
com Conta Comigo,
Alien com Carrie,
Contatos Imediatos do
Terceiro Grau com Evil
Dead,
Goonies com
Poltergeist,
Além da Imaginação
com Chamas da
Vingança...
Tudo isso estrelado por
dois dos atores mais
populares da década
perdida: Winona Ryder
e Matthew Modine.
47. Sistema de Recomendação
Sistema de Recomendação de Produtos
Vitrines inteligentes para lojas online
Aumento em 60% o volume de faturamento das lojas
Cluster com 70nós
Mais de 1.5 milhões de transações por segundo
48. Case Uniter
Problema: Inadimplência X Evasão
180 mil alunos
Crescimento de 40 milhões
registros por dia
1,5 trilhões de registro em
SQLServer
Comparações do passado/presente
Evolução dos pagamentos atrasados
Reflexo sob o sistema acadêmico
Processamento em tempo hábil
O HADOOP Cluster HortonWorks
Com isso a demanda de relatórios que
depende de pesquisa histórica
Volume total 12 Trilhões de registros
Tempo médio de busca 20s algumas
instantâneas.
• Com combinações de nome de aluno,
disciplinas, turmas, cursos, data de entrada e
saída, data da informação, títulos emitidos,
renegociações, data de pagamento, valor de
titulo, valor pago.
SQLServer com base local de 600GB
Base no Hadoop é de 10TB
50. Captura e Processamento dos Vídeos
As imagens são capturadas e processadas em
tempo real.
Podemos notar as marcações realizadas pelo
software de análise.
Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
Velocidade acima de 10% do limite
Velocidade acima de 20% do limite
Avanço de Sinal
Caminhão fora de horário
Sobre a faixa de pedestre
53. Demonstração HortonWorks
Gera sentimento em relação o IronMan 3
Coleta do Stream do Twitter
Dados do Twiter são salvos pelo flume no hadoop
Com uma tabela de classificação de sentimento
É processada a base e gerar informações a respeito do filme
54.
55.
56. Treinamentos
Presencias, On-line e Semipresenciais
Curso: Apache Hadoop Essencial
(8horas )
Curso: Introdução ao Futuro Cientista
de Dados (8h)
Curso: DataScientist e BigData for
Bussines (16h)
Curso: Apache Hadoop Fundamental
(24h)
Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
Treinamento Apache Sqoop (8h)
Treinamento Apache Cassandra (16h)
Treinamento HBase (16h)
Treinamento Hive (16h)
Treimento Mahout (16h)
Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
Curso de Splunk (16h)
Curso Pig e Pig Latin (16h)
Curos de Programaçao em MapReduce
com Java e C# (16h)
Curso de Flume (16h)