O documento discute o Big Data e como o software livre, especialmente Hadoop e Pentaho, podem ser usados para analisar grandes volumes de dados. O palestrante Marcio Junior Vieira apresenta suas credenciais e experiência com software livre e Big Data, e descreve conceitos como os 4Vs de Big Data, HDFS, MapReduce e outros componentes do ecossistema Hadoop. Exemplos de uso de Big Data em esportes e empresas também são apresentados.
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
1. Cientista de Dados – Dominando o Big Data
com Software Livre
XIII Semana de Atualização em
Tecnologia da Informação
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2. Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em
desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de
consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado
em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software
Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Hadoop e Pentaho
11. Os 4 V's
● Velocidade , Volume , Variedade e Valor
12. Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
14. Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
15. Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
16. O novo V: Veracidade
Veracidade refere-se a confiabilidade dos dados. Com muitas
formas de grandes qualidades e precisão dos dados são menos
controláveis (basta pensar em posts no Twitter com hash tags,
abreviações, erros de digitação e linguagem coloquial, bem como
a confiabilidade e a precisão do conteúdo), mas agora a
tecnologia permite-nos trabalhar com este tipo de dados .
18. Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base
em informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade
de dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
19. Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
20. Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
21. Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
22. Case Linkendin
● Pesquisador, percebeu que a rede social estava monótona e
que as pessoas realizavam poucas interações.
● Sugeriu um algoritmo que apresentasse sugestões de
amizades, conhecido como ‘People You May Know’,
● Foi um sucesso e ajudou com que a rede se tornasse uma
das mais utilizadas no mundo.
● O algoritmo utilizava informações disponibilizadas nos perfis,
por exemplo, o colégio onde o usuário cursou o Ensino
Médio. Comparando com os outros usuários, o algoritmo
poderia sugerir pessoas que também estudaram no mesmo
colégio, fazendo assim que as pessoas aumentassem seu
número de conexões, proporcionando maiores interações.
25. Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será
preenchido. ( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
30. Software Livre
● "Software livre" se refere à liberdade dos usuários
executarem, copiarem, distribuírem, estudarem, modificarem e
aperfeiçoarem o software. São 4 tipos de liberdade, para os
usuários do software:
● 1. A liberdade de executar o programa, para qualquer propósito.
● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas
necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade.
● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo.
● 4. A liberdade de aperfeiçoar o programa, e liberar
os seus aperfeiçoamentos, de modo que toda a
comunidade se beneficie.
31. Open Source
● Criado pela OSI (Open Source Initiative)
● Não refere-se a software também conhecido por software
livre.
● Qualquer licença de software
livre é também uma licença
de código aberto
(Open Source)
● Mas o contrário nem sempre é
verdade
● Criado por Eric Raymond e
outros fundadores da OSI.
32. Free Software X OSI
● 4 Lei da GPL
● OBRIGATORIEDADE:
A liberdade de aperfeiçoar o programa, e
liberar os seus aperfeiçoamentos, de modo
que toda a comunidade se beneficie.
X
33. Muitos das melhores e mais
conhecidas ferramentas de dados
disponíveis são grandes projetos
de código aberto. O mais
conhecido deles é o Hadoop, o
que está gerando toda uma
indústria de serviços e produtos
relacionados.
34. Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum ( Commodity cluster
computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
35. Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
36. Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
38. O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
39. Características do HDFS
● Inspirado em GFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
40. HDFS
● Projetado para escalar a petabytes de
armazenamento, e correr em cima dos
sistemas de arquivos do sistema
operacional subjacente.
42. HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
43. MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
45. MapReduce
Você especifica o map (...) e reduce (...)
funções
● map = (lista (k, v) -> lista (k, v))
● reduce = (k, lista (v) -> k, v)
O Framework faz o resto
● Dividir os dados
● Executa vários mappers sobre as divisões
● Embaralhar os dados para os redutores
● Executa vários redutores
● Guarda os resultados finais
47. Outros componentes
● Hive - Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
48. Hbase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
49. Outros componentes
● ZooKeeper – Serviço de coordenação altamente
disponível e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a construção
de aplicações distribuídas.
● Sqoop – Ferramenta para a movimentação eficiente
de dados entre bancos de dados relacionais e HDFS.
● Mahout - Aprendizagem de máquina
escalável, de fácil uso comercial para
a construção de aplicativos inteligentes
50. ● Solução de BI Open Source.
● Tem versões Community Edition e Enterprise
Edition.
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
54. Resultado
●
●
●
●
●
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados
que são processados em tempo real
Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber
quando um jogador chegou ao seu limite físico
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua
participação nos jogos além do seu desempenho físico e média da equipe
55. Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay
57. Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve adaptação
de processos e treinamento relacionado à mudanç de gestão e analise
de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia tazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
58. Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
59. Big Data
● “Big Data hoje é o que era a
Web em 1993.
● Sabemos que será algo
grande, mas não sabemos
como...” COPPEAD/UFRJ
60. Convite – Próximos
Eventos
● Latinoware 2014
● Pentaho Day Brasil 2015
● FISL 2015