O documento fornece uma introdução sobre o que é Big Data, abordando os modelos DIKW e os 7 V's que caracterizam os dados de grande volume, variedade e velocidade. Apresenta também carreiras em Big Data, arquiteturas em nuvem e casos de uso com ênfase na geração de valor através da análise de dados.
2. Introdução
O que é Big Data
Modelo DIKW
4 V´s
7 V´s
Buzzword e Gartner Hypecycle
Big Data – Hard e Soft Skills
Carreiras
Arquiteturas Big Data
Casos de Uso
Conteúdo disponível Big Data e Analytics
AGENDA
2
3. Edgar – Who am I ?
CTO | Data Architect | Researcher | Digital Mkteer | d.thinker | DevOps |
Cloud Products SME | Serial Entrepreneur
3
10. D de DADO
FATOS DISCRETOS SOBRE UM DETERMINADO EVENTO
EXEMPLOS:
- DATA E HORA NA QUAL UM DETERMINADO INCIDENTE FOI
REGISTRADO
-LOG DE SISTEMAS
10
11. I de INFORMAÇÃO
PROVEM DA INTERPRETAÇÃO,
QUANTIFICAÇÃO E CONTEXTUALIZAÇÃO
DOS DADOS
EXEMPLOS:
- TEMPO MÉDIA ENTRE A OCORRENCIA DE
DOIS INCIDENTES
- A CADA 5 MIN SÃO GERADOS 25 LOG DE
SISTEMA
11
12. K de KNOWLEDGE
EXPERIÊNCIAS, IDÉIAS, INSIGHTS, VALORES, ANÁLISES INDIVIDUAIS E
MULTI-DIMENSIONAIS
EXEMPLO: O TEMPO MÉDIO DE
RESOLUÇÃO DE INCIDENTES DE
PRIORIDADE 2 AUMENTOU EM
15% APÓS O DEPLOY DO NOVO
RELEASE.
12
13. W de WISDOM
FAZER USO DO CONHECIMENTO PARA CRIAR VALOR ATRAVÉS DE
DECISÕES CORRETAS E SUPORTADAS POR INFORMAÇÕES
EXEMPLO: FOI IDENTIFICADO
AUMENTO NO TEMPO MÉDIO
DE RESOLUÇÃO DE INCIDENTES
COM PRIORIDADE 2 DEVIDO O
BAIXO NÍVEL DE
DOCUMENTAÇÃO
OPERACIONAL.
13
14. BIG DATA -> ++ WISDOM
OPERAÇÕES:
• Determinar a causa raiz de falhas, problemas e defeitos em near real-time;
MARKETING:
• Gerar cupons no ponto de venda com base em hábitos de compra dos clientes;
• Recomendar produtos relacionados entre sí, através do espelhamento de perfis
de consumo e ticket médio.
FINANCEIROS:
• Recalcular carteiras de risco inteiras, em questão de minutos;
• Detectar comportamentos fraudulentos antes que eles afetem sua organização.
14
15. 4 V´s do Bigdata
TIP: Embora o termo "big data" é relativamente novo. Foi cunhado no
início dos anos 2000 proveniente do ato de recolher e armazenar
grandes quantidades de informações para eventual análise.
15
17. 4 V’s tornaram-se pouco para definir big data
e no momento são 7 v’s...
• Pois é, O big data é complexo. Chegou digital, complexo, “atropelando” e
disruptivo e representou um desafio às tecnologias existentes
• Verificou-se que nem todos os tipos de dados considerados BIG, possuiam os
principais atributos – Volume, Variedade, Velocidade e Veracidade.
• Algumas dimensões somente ganham significado em volume: variedade e
veracidade. E mais recentemente novas considerações “V´s” foram
adicionadas ao processo de análise: Valor, Visibilidade, Variabilidade.
• Em resumo: devem ser levados em consideração todas as características
possíveis, relevantes, “que explicam” (Segundo os estatísticos) e ainda
haverá dúvidas sobre o que está sendo observado.
17
18. Volume
• Volume é o que é: muitos dados. Imagens, meta-dados, contextos,
tags, geo, stream.
18
19. Variedade
• Variedade diz respeito aos vários formatos em que o
dado é gerado, muitas vezes não está numa única
forma (perfeitamente estruturada em colunas), pode
conter imagens, mensagens e-mail, planilhas,
conversas de mídia social e mídia streaming.
Atualmente, não existe um "one-size -fits-all" para
abordagem universal.
19
20. Velocidade
• Velocidade - Pode ser interpretada de duas maneiras,
necessidade de armazenamento rápida (ingestão) ou
a manutenção de dados que são “sensíveis” ao tempo
(é um metadado = timestamp). Um exemplo é a
definição de perfis em tempo real de anúncios de
exibição na internet personalizadas de acordo com
seu padrão de uso.
20
21. Veracidade
•Veracidade – conforme os fatos, padronizado
com precisão e exatidão.
– Será que precisamos de um corretor
ortográfico para obter a consistência dos dados ?
Big Data – Veracidade = Inferências incorretas
estão sendo consideradas ?
21
22. Validade
•Validade - O dado interpretado deve fazer
sentido, ter uma lógica ou fato resultante de
uma inferência sustentável.
Um dos erros mais comuns é confundir
correlação com causa.
Volume - Validity = Worthlesness?
22
23. Valor
•Valor - o que importa, o que vale, o motivo pelo
qual o dado é “consumido”– provavelmente o
mais relevantes às organizações.
Dados entrando e saindo por si só não
representam necessariamente valor.
Big Data – transações = Dados + Valor?
23
24. Visibilidade
• Visibilidade - é a capacidade de ver ou ser visto. Dados
de fontes diversas precisam ser vinculadas através de
processos, métodos e tecnologias.
Dados estratégicos geram visões críticas e podem
permanecem disponíveis, mas não necessariamente
visíveis à todos.
Big Data – visibilidade = Buraco Negro?
24
25. Variabilidade
• Variabilidade - Além da velocidade e variedade de dados
cada vez maiores, os fluxos de dados podem ser altamente
inconsistentes com picos periódicos/sazonalidade.
Diariamente, picos de dados sazonais ou picos gerados com
base em eventos podem ser um desafio de gerenciar. Ainda
mais quando falamos de dados não estruturados.
Big Data + Social Media = Espelhamento digital ?
25
27. Data Science – Analytics & Insigths
• Hoje em dia podemos dizer que é uma
metodologia. Consiste em aplicar
simultaneamente técnicas de Estatística,
Programação e Mineração de Dados a um
conjunto de dados, com o intuito de descobrir
padrões significativos, não triviais.
27
29. E na prática – o que eu preciso saber ?
É importante lembrar que o valor principal de big data não vem dos
dados em sua forma bruta, mas do processamento e análise destes
dados, insights e ações (produtos e serviços) que surgem desta análise.
As mudanças bruscas nas tecnologias e abordagens gerenciais de big
data são precursores das mudanças dramáticas que vivenciaremos nas
em organizações inovadoras em nos respectivos produtos e serviços.
Interpretação de texto do Thomas H. Davenport em Big Data em Grandes Empresas
29
30. Data Jobs Hard and Soft Skills
HARD SKILLS
• Estatística
• Data Mining
• Machine Learning
• R ou Python
• Data Visualization
• Data Warehouse / Architecture
• Programação / Algorítimos
SOFT SKILLS
• Curiosidade
• Narrativa / Storytelling
• Generalista
• Conhecimentos de mercado
• Associação de Problemas
• Resolução de Problemas
30
Speech:
Apesar de estarmos alguns anos na era do Conhecimento nossa cabeça ainda está na Era Industrial. Algumas pessoas ainda questionam se realmente estamos nessa ERA e eu trouxe alguns fatos para provar para vocês que sim.
"Daqui a cinco anos você estará bem próximo de ser a mesma pessoa que é hoje, exceto por duas coisas: os livros que ler e as pessoas de quem se aproximar." (Charles Jones)
Alguns cursos online disponíveis. Existem tracks completos de data Science, analytics, módulos gratuitos