Big data e mineração de dados

Big Data e Mineração de Dados
Prof. S. Elton Meira

Parte 1 - Big Data: Sumário
•O fenômeno e as histórias que a mídiaapresenta
•O que é Big Data.
•Big Data: a infraestrutura

Big Data na Mídia
•Ultimamente há diversas histórias sobreBig Data:
You Tube: http://youtu.be/LsMt5jp1a9k

Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
http://youtu.be/XH1wQEgROg4

Big Data na Mídia
http://www.fivethirtyeight.com/
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/

Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

Os 3Vs do Big Data
•Big Data é qualquer fonte de dados que possui no mínimo três características comuns:
–Volume extremamente elevado;
–Velocidade extremamente elevada;
–Variedade extremamente elevada.

Os 3Vs do Big Data
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg

Volume maior de dados...
http://monetate.com/infographic/the- retailers-guide-to-bigdata/#axzz2HaZVK816

•A quantidade dados aumentou muito nos últimos anos:
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816

O que gera tanta quantidade de dados?
•Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana
•Humanos: através de sua interação com as máquinas e computadores

Variedade dos dados:
•Dados com comprimento e tipo definidos.
•Exemplos: números, datas, strings, etc
Dados estruturados
•Dados sem um formato específico.
•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc
Dados não estruturados
•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.
•Exemplos: JSON, EDI, XML
Dados semiestruturados

Velocidade dos dados
•A revolução das tecnologias de comunicação aumentou muito a velocidade de transmissão de dados.

Componentes Tecnológicos do Big Data
Interfaces e alimentadores de/para internet
Infraestrutura física redundante
Infraestrutura de segurança
Dispositivos (computadores, notebooks, tablets, smarphones)
Banco de dados Operacional (estruturado, não estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Interfaces e alimentadores de/para aplicações

Infraestrutura física
•Requisitos:
–Desempenho: um parâmetro importante é a latência e o tempo de resposta.
–Disponibilidade: uptime, tempo médio entre falhas.
–Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio.
–Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas.
–Custo: quer pagar quanto??

•Computação em nuvem pode ser uma boa alternativa
–Definição de computação em nuvem: é um método de fornecer um conjunto de recursos computacionais incluindo aplicativos, armazenamento, rede, ambientes de desenvolvimento, plataformas de implantação e processos de negócio.

•Modelos de computação em nuvem
–Infrastructure as a Service (IaaS): fornecimento de serviços computacionais incluindo hardware, rede, armazenamento e espaço em datacenters por aluguel de recursos.
–Platform as a Service (PaaS): combina IaaS com um conjunto abstrato de serviços de middleware, ferramentas de desenvolvimento de software, ferramentas de implantação as quais permitem à organização ter um modo consistente de criar implantar aplicações na nuvem.

•Modelos de computação em nuvem
–Software as a Service (SaaS): aplicações criadas e hospedadas por um provedor. O cliente paga por serviço por usuário em contratos mensais ou anuais.
–Data as a Service (DaaS): serviço independente da plataforma que conecta o cliente com a nuvem para armazenar e recuperar dados.

•Exemplos de nuvens:

Componentes Tecnológicos do Big Data
Interfaces e alimentadores de/para internet
Infraestrutura física redundante
Dispositivos (computadores, notebooks, tablets, smarphones)
Banco de dados operacional (estruturado, não estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Interfaces e alimentadores de/para aplicações

•A segurança envolve diversos aspectos:
–Acesso aos dados
–Acesso aos aplicativos
–Criptografia de dados
–Detecção de ameaças

Bancos de dados operacionais
•Bancos de dados relacionais
•Bancos de dados Not Only SQL (NoSQL)

•Bancos de dados relacionais
–Dados estruturados
–ACID (Atomicidade, Consistência, Isolamento e Durabilidade)

–Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.
–Escaláveis
–Modelos próprios de dados e queries
–Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)

–Banco de dados chave-valor (key-value)
–Banco de dados de documentos

–Banco de dados de grafos:
–Banco de dados espaciais

–Banco de dados em colunas:
HBase é um banco de dados distribuido open-source orientado a coluna, modelado a partir do Google BigTable e escrito em Java. O Hbase tem fácil integração com o Hadoop, sendo assim, pode utilizar o MapReduce para distribuir o processamento dos dados, podendo processar facilmente vários terabytes de dados.

Organização de banco de dados e ferramentas
•Esta parte da infraestrutura captura, valida e monta vários elementos de big data em coleções relevantes.
•Tecnologias envolvidas:
–Sistemas de arquivos distribuídos.
–Serviços de serialização para persistência de dados e chamadas remota de procedimentos
–Serviços de coordenação: para possibilitar aplicações distribuídas.

•A tecnologia mais conhecida desta parte do framework é o MapReduce
•MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo em um cluster.

•Umprograma de MapReduce compreende:
–um map () procedimento que realiza a filtrageme ordenação (como classificação os alunos pelo primeiro nome em filas, uma fila para cada nome) e
–Reduce () procedimento que executa umaoperação de resumo (como a contagem donúmero de alunos em cada fila, produzindofreqüências nome).

•MapReduce:

•Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.

•Ele suporta a execução de aplicações emgrandes aglomerados de hardwarecommodity.
•Hadoop MapReduce foi obtido a partir doGoogle e do sistema de arquivo do Google(GFS).

Mineração de dados
•Mineração de dados envolve aexploração e análise de grandequantidade de dados com o objetivode encontrar padrões

•Mineração de dados utiliza técnicas estatísticas e de inteligência artificial.
•O objetivo da mineração de dados pode ser feita para:
–Classificar elementos de um conjunto de dados.
–Prever valores de variáveis aleatórias.

•Mineração de dados utiliza técnicasestatísticas e de inteligência artificial.
•O objetivo da mineração de dadospode ser feita para:
–Classificar elementos de um conjunto dedados.
–Prever valores de variáveis aleatórias.

•Exemplos de algoritmos utilizados namineração de dados:
–Árvores de classificação
–Regressão logística
–Redes neurais
–Técnicas de agrupamento (clustering)

Big data e mineração de dados

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Big data e mineração de dados

Ähnlich wie Big data e mineração de dados (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Big data e mineração de dados