3. Parte 1 - Big Data: Sumário
•O fenômeno e as histórias que a mídiaapresenta
•O que é Big Data.
•Big Data: a infraestrutura
4. Big Data na Mídia
•Ultimamente há diversas histórias sobreBig Data:
You Tube: http://youtu.be/LsMt5jp1a9k
5. Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
http://youtu.be/XH1wQEgROg4
6. Big Data na Mídia
http://www.fivethirtyeight.com/
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
7. Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
8. Os 3Vs do Big Data
•Big Data é qualquer fonte de dados que possui no mínimo três características comuns:
–Volume extremamente elevado;
–Velocidade extremamente elevada;
–Variedade extremamente elevada.
9. Os 3Vs do Big Data
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
10. Volume maior de dados...
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
http://monetate.com/infographic/the- retailers-guide-to-big- data/#axzz2HaZVK816
11. Volume maior de dados...
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
12. Volume maior de dados...
•A quantidade dados aumentou muito nos últimos anos:
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
13. O que gera tanta quantidade de dados?
•Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana
•Humanos: através de sua interação com as máquinas e computadores
14. Variedade dos dados:
•Dados com comprimento e tipo definidos.
•Exemplos: números, datas, strings, etc
Dados estruturados
•Dados sem um formato específico.
•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc
Dados não estruturados
•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.
•Exemplos: JSON, EDI, XML
Dados semiestruturados
15. Velocidade dos dados
•A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.
16. Componentes Tecnológicos do Big Data
Interfaces e alimentadores de/para internet
Infraestrutura física redundante
Infraestrutura de segurança
Dispositivos (computadores, notebooks, tablets, smarphones)
Banco de dados Operacional (estruturado, não estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Interfaces e alimentadores de/para aplicações
17. Infraestrutura física
•Requisitos:
–Desempenho: um parâmetro importante é a latência e o tempo de resposta.
–Disponibilidade: uptime, tempo médio entre falhas.
–Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio.
–Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas.
–Custo: quer pagar quanto??
18. Infraestrutura física
•Computação em nuvem pode ser uma boa alternativa
–Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.
19. Infraestrutura física
•Modelos de computação em nuvem
–Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos.
–Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.
20. Infraestrutura física
•Modelos de computação em nuvem
–Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais.
–Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.
22. Componentes Tecnológicos do Big Data
Interfaces e alimentadores de/para internet
Infraestrutura física redundante
Infraestrutura de segurança
Dispositivos (computadores, notebooks, tablets, smarphones)
Banco de dados operacional (estruturado, não estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Interfaces e alimentadores de/para aplicações
23. Infraestrutura de segurança
•A segurança envolve diversos aspectos:
–Acesso aos dados
–Acesso aos aplicativos
–Criptografia de dados
–Detecção de ameaças
24. Bancos de dados operacionais
•Bancos de dados relacionais
•Bancos de dados Not Only SQL (NoSQL)
25. Bancos de dados operacionais
•Bancos de dados relacionais
–Dados estruturados
–ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
26. Bancos de dados operacionais
•Bancos de dados Not Only SQL (NoSQL)
–Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.
–Escaláveis
–Modelos próprios de dados e queries
–Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
27. Bancos de dados operacionais
•Bancos de dados Not Only SQL (NoSQL)
–Banco de dados chave-valor (key-value)
–Banco de dados de documentos
28. Bancos de dados operacionais
•Bancos de dados Not Only SQL (NoSQL)
–Banco de dados de grafos:
–Banco de dados espaciais
29. Bancos de dados operacionais
•Bancos de dados Not Only SQL (NoSQL)
–Banco de dados em colunas:
HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.
30. Organização de banco de dados e ferramentas
•Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes.
•Tecnologias envolvidas:
–Sistemas de arquivos distribuídos.
–Serviços de serialização para persistência de dados e chamadas remota de procedimentos
–Serviços de coordenação: para possibilitar aplicações distribuídas.
31. Organização de banco de dados e ferramentas
•A tecnologia mais conhecida desta parte do framework é o MapReduce
•MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.
32. Organização de banco de dados e ferramentas
•Umprograma de MapReduce compreende:
–um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e
–Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).
34. Organização de banco de dados e ferramentas
•Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
35. Organização de banco de dados e ferramentas
•Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity.
•Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).
36. Mineração de dados
•Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões
37. Mineração de dados
•Mineração de dados utiliza técnicas estatísticas e de inteligência artificial.
•O objetivo da mineração de dados pode ser feita para:
–Classificar elementos de um conjunto de dados.
–Prever valores de variáveis aleatórias.
38. Mineração de dados
•Mineração de dados utiliza técnicasestatísticas e de inteligência artificial.
•O objetivo da mineração de dadospode ser feita para:
–Classificar elementos de um conjunto dedados.
–Prever valores de variáveis aleatórias.
39. Mineração de dados
•Exemplos de algoritmos utilizados namineração de dados:
–Árvores de classificação
–Regressão logística
–Redes neurais
–Técnicas de agrupamento (clustering)