BigData e Business Intelligence

BigData – Cases e
oportunidades
Alessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
binhara@azuris.com.br

Agenda
 O que é BigData e BI ?
 O que é um Cientista de Dados ?
 Porque e quando usar Bigdata ?
 Cases e Aplicações
 Oportunidades
 Ferramentas

Por que??? BigData ??? CloudComputing??
 Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
 Atualmente: menos de 6 mil dólares por Gene
 Atualmente o sequenciamento gerar cerca de
50petabyte de dados.
 1 semana para decodificar 1 Gene
 Atualmente: Se Faz o sequenciamento de 100 Gene
por dia

O que é Um Cientista de Dados ?
 O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
 “Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011. Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.

Não confunda os conceitos
 CloudComputing – computação em nuvem
 BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
 BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
 Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações

Player Limits
 Oracle 6T
 MariaDB 6T
 Postegres 3T
 Mysql 3T
 SQLServer 1T
 *AWS Instance
ACID

Player Limits
 Oracle 6T
 MariaDB 6T
 Postegres 3T
 Mysql 3T
 SQLServer 1T
 *AWS Instance
ACID ACID

Book
albuns
jeans
produtc
Product
Type:Book
titulo
Price
autor
pages
Product
Type:jeans
Id
Price
Detail
Model
Size
length
Product
Type:Album
Id
Price
track list
track 01
track 02
...

Compartivo
 SQL
 Banco Relacional
 Escalabilidade vertical
 Terabytes
 RAID, HDs rápidos
 Mais dados, troque o servidor
 BigTable
 Escalabilidade horizontal
 Petabytes
 CPU Rápida/ Baixo custo
 Padrão, HDs duráveis
 Mais dados, adicione mais
servidores

Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES

O que map reduce ?
 Estratégia de dividir para conquistar
 MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
 Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
 Processamento de dados base em batch
 A abstração limpa para programadores
 Paralelização automática e distribuição
 Tolerância a falhas

O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
 Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
 Permite que os aplicativos usem petabytes de dados em
paralelo.

Bigdata é o mundo do cobertor curto...

Processamento
 MapReduce 2 (yarn)
 Apache Spark
 Apache TEZ
 Apache Storm

BigTable
 HBASE
 Cassandra

SQL/DB
 Spark SQL
 Impala
 Hive
 Presto

Data Flow
 Flume (logs, files)
 Sqoop (sync,sql)
 Kafka (msg)
 Nifi (proc/dist)

Suporte e administração
 Oozie (workflow,sched)
 Zookeeper(coord,config)
 Ambari (monitor, managing)

Outros
 PIG, jaql, hive
 Mahout, Mlib, H2O
 Solar
 Zepelin

O que eu preciso saber para trabalhar com bigdata
 TCPIP, Redes, Instraestrutura
 Linux / UNIX
 Bash
 Cloud Computin (Azure, AWS etc)
 Data Ingestion, Flume, HDFS
 Java, MapReduce , Yarn, TEZ
 Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House
 Bussines Inteligence
 Java , Scala, Python
 Processamento de Streaming , Spark, Kafka
 Maquinas de aprendizado,
 Linguagem R
 Matemática / Estatistica
 Sistemas de recomendação, IA
Analista Cloud

 Linux / UNIX
 Bash
 Linguagem R
 sistemas de recomendação, IA
Analista Cloud
BigData Developer

 Linux / UNIX
 Bash
 Linguagem R
 sistemas de recomendação, IA
Analista Cloud
Bigdata Arquitect
BigData Developer

 Linux / UNIX
 Bash
 Maquinas de aprendizado
 Linguagem R
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer

 Linux / UNIX
 Bash
 Linguagem R
Analista Cloud
Data Cientist
Bigdata Arquitect
BigData Developer
DBA – Analista de Negócio

Mercado em crescimento
 Amazon.com + Amazon AWS (+260mil funcionários)
 75 mil vagas empregos aberto no mundo
 Receita 107 Bilhões
 Valor atual $317 Bilhões
 Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte-
americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de
um novo conglomerado avaliado em mais de US$ 3 trilhões.
 Apple $521 bilhões
 Google $480 bilhões
 Microsoft $238Bilhões

Hadoop no FaceBook
 Cluster em produção
 4800 cores, 600 máquina, 16GB por máquina – Abril/2009
 8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
 4 SATA discos de 1 TB por máquina
 2 níveis de rede hierarquica, 40 máquinas por rack
 Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
 Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
 Atualmente eles moveram 30PB de para um novo Cluster
 Todos os dias o Facebook recebe 380milhões de novas fotos

Cluster no Yahoo
 É investidor da HortonWorks
 Atualmente o Yahoo tem um cluster com mais de 42mil máquinas

Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor

BigData na Netflix....
 How Netflix Uses Analytics To Select Movies, Create Content, and Make
Multimillion Dollar Decisions
 “There are 33 million different versions of Netflix.”
 – Joris Evers, Director of Global Communications
 Sistema de Recomendação:
 Since 75% of viewer activity is based on these suggestions, I’d say it works pretty
well for them.
 https://blog.kissmetrics.com/how-netflix-uses-analytics/

Metricas da Netflix
 When you pause, rewind, or fast forward
 What day you watch content (Netflix has found people watch TV shows during the week
and movies during the weekend.)
 The date you watch
 What time you watch content
 Where you watch (zip code)
 What device you use to watch (Do you like to use your tablet for TV shows and your
Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)
 When you pause and leave content (and if you ever come back)
 The ratings given (about 4 million per day)
 Searches (about 3 million per day)
 Browsing and scrolling behavior
 Netflix also looks at data within movies. They take various “screen shots” to look at “in
the moment” characteristics. Netflix has confirmed they know when the credits start
rolling; but there’s far more to it than just that. Some have figured these
characteristics may be the volume, colors, and scenery that help Netflix find out what
users like.

House o Cards
 A netflix sabia que:
 Muitos usuários assistiram a David Fincher dirigiu o filme The Social
Networkfrom começo ao fim.
 A versão britânica de "House of Cards" tem sido bem assistida.
 Aqueles que assistiram a versão britânica "House of Cards" também
assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David
Fincher.
 Cada um desses 3 fatores sinérgicos tinha que conter um determinado
volume de usuários.A Netflix tinha um monte de usuários com todos os
3 fatores.
 O seriado trouxe em 2 milhões de novos assinantes nos EUA no
primeiro trimestre de 2013, que foi um aumento de 7% trouxe em
1 milhão de novos assinantes de outras partes do mundo.
 Em relação ao trimestre anterior. De acordo com The Wire
Atlântico, estes 3 milhões de assinantes quase pagou o custo de
House of Cards.

Seria Stranger Things uma obra de
arte do algoritmo da Netflix?
 Desta vez temos uma
série que costurou ET
com Conta Comigo,
 Alien com Carrie,
 Contatos Imediatos do
Terceiro Grau com Evil
Dead,
 Goonies com
Poltergeist,
 Além da Imaginação
com Chamas da
Vingança...
 Tudo isso estrelado por
dois dos atores mais
populares da década
perdida: Winona Ryder
e Matthew Modine.

Sistema de Recomendação
 Sistema de Recomendação de Produtos
 Vitrines inteligentes para lojas online
 Aumento em 60% o volume de faturamento das lojas
 Cluster com 70nós
 Mais de 1.5 milhões de transações por segundo

Case Uniter
 Problema: Inadimplência X Evasão
 180 mil alunos
 Crescimento de 40 milhões
registros por dia
 1,5 trilhões de registro em
SQLServer
 Comparações do passado/presente
 Evolução dos pagamentos atrasados
 Reflexo sob o sistema acadêmico
 Processamento em tempo hábil
O HADOOP Cluster HortonWorks
Com isso a demanda de relatórios que
depende de pesquisa histórica
Volume total 12 Trilhões de registros
Tempo médio de busca 20s algumas
instantâneas.
• Com combinações de nome de aluno,
disciplinas, turmas, cursos, data de entrada e
saída, data da informação, títulos emitidos,
renegociações, data de pagamento, valor de
titulo, valor pago.
SQLServer com base local de 600GB
Base no Hadoop é de 10TB

Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações realizadas pelo
software de análise.
 Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
 Velocidade acima de 10% do limite
 Velocidade acima de 20% do limite
 Avanço de Sinal
 Caminhão fora de horário
 Sobre a faixa de pedestre

CaseAGENT - Central inteligente de
Trânsito Semáforo inteligente

Demonstração HortonWorks
 Gera sentimento em relação o IronMan 3
 Coleta do Stream do Twitter
 Dados do Twiter são salvos pelo flume no hadoop
 Com uma tabela de classificação de sentimento
 É processada a base e gerar informações a respeito do filme

Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futuro Cientista
de Dados (8h)
 Curso: DataScientist e BigData for
Bussines (16h)
 Curso: Apache Hadoop Fundamental
(24h)
 Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
 Treinamento Apache Sqoop (8h)
 Treinamento Apache Cassandra (16h)
 Treinamento HBase (16h)
 Treinamento Hive (16h)
 Treimento Mahout (16h)
 Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
 Curso de Splunk (16h)
 Curso Pig e Pig Latin (16h)
 Curos de Programaçao em MapReduce
com Java e C# (16h)
 Curso de Flume (16h)

Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br

BigData e Business Intelligence

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie BigData e Business Intelligence

Ähnlich wie BigData e Business Intelligence (20)

Mehr von Alessandro Binhara

Mehr von Alessandro Binhara (20)

BigData e Business Intelligence