SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
Cientista de Dados – Dominando o Big Data 
com Software Livre 
XIII Semana de Atualização em 
Tecnologia da Informação 
Palestrante: Marcio Junior Vieira 
marcio@ambientelivre.com.br
Marcio Junior Vieira 
● 15 anos de experiência em informática, vivência em 
desenvolvimento e análise de sistemas de Gestão empresarial. 
● Trabalhando com Software Livre desde 2000 com serviços de 
consultoria e treinamento. 
● Graduado em Tecnologia em Informática(2004) e pós-graduado 
em Software Livre(2005) ambos pela UFPR. 
● Palestrante em diversos Congressos relacionados a Software 
Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, 
JDBR, Campus Party, Pentaho Day. 
● Fundador da Ambiente Livre Tecnologia. 
● Instrutor de Hadoop e Pentaho
Ecosistema Ambiente 
Livre
Colaborações com Eventos
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
2013 na apresentação do Papa Francisco
Big Data 
● É um novo conceito se consolidando. 
● Grande armazenamento de dados e maior 
velocidade
Big Data
Os 4 V's 
● Velocidade , Volume , Variedade e Valor
Volume 
● Modelos de Persistência da ordem 
de Petabytes, zetabytes 
ou yottabyte(YB). 
● Geralmente dados não 
estruturados. 
● Um Zettabyte corresponde a 
1.000.000.000.000.000.000.000 (10²¹) ou 
1180591620717411303424 (2 elevado a 70) 
Bytes.
Velocidade 
● Processamento de Dados 
● Armazenamento 
● Analise de Dados
Variedade 
● Dados semi-estruturados 
● Dados não estruturados 
● Diferentes fontes 
● Diferentes formatos
Valor 
● Tomada de Decisão 
● Benefícios 
● Objetivo 
do Negócio.
O novo V: Veracidade 
Veracidade refere-se a confiabilidade dos dados. Com muitas 
formas de grandes qualidades e precisão dos dados são menos 
controláveis (basta pensar em posts no Twitter com hash tags, 
abreviações, erros de digitação e linguagem coloquial, bem como 
a confiabilidade e a precisão do conteúdo), mas agora a 
tecnologia permite-nos trabalhar com este tipo de dados .
O momento é agora
Tomada de Decisão 
● 1 em cada 3 gestores tomam decisão com base 
em informações que não confiam ou não tem 
● 56% sentem sobrecarregados com a quantidade 
de dados que gerenciam 
● 60% acreditam que precisam melhorar captura e 
entender informações rapidamente. 
● 83% apontam que BI & analytics fazem parte de 
seus planos para aumentar a competitividade 
fonte : Survey KPMG.
Onde usar Big Data ? 
● Sistemas de 
recomendação 
● Redes Sociais
Onde usar Big Data ? 
● Analise de Risco 
(Crédito, Seguros , 
Mercado Financeiro) 
● Dados Espaciais ( Clima , 
Imagens, Trafego, 
Monitoramento) 
● Energia Fotovoltaica 
(Medições , Estudos, 
Resultados )
Big Data X BI 
● Big Data e uma evolução do BI, devem 
caminhar juntos 
● Data Warehouses são necessários para 
armazenar dados estruturados 
Previsão: 
● BI – Casos específicos 
● Big Data – Analise geral
Case Linkendin 
● Pesquisador, percebeu que a rede social estava monótona e 
que as pessoas realizavam poucas interações. 
● Sugeriu um algoritmo que apresentasse sugestões de 
amizades, conhecido como ‘People You May Know’, 
● Foi um sucesso e ajudou com que a rede se tornasse uma 
das mais utilizadas no mundo. 
● O algoritmo utilizava informações disponibilizadas nos perfis, 
por exemplo, o colégio onde o usuário cursou o Ensino 
Médio. Comparando com os outros usuários, o algoritmo 
poderia sugerir pessoas que também estudaram no mesmo 
colégio, fazendo assim que as pessoas aumentassem seu 
número de conexões, proporcionando maiores interações.
Cases
O Profissional 
“data scientist” 
Novo profissional: Cientista de Dados
Cientista de dados 
● Gartner: necessitaremos de 4,4 Milhões de 
especialistas até 2015 ( 1,9M América do Norte, 1,2M 
Europa Ocidental e 1,3M Ásia/Pacifico e América 
Latina) 
● Estima-se que apenas um terço disso será 
preenchido. ( Gartner ) 
● Brasil deverá abrir 500 mil vagas para profissionais 
com habilidades em Big Data 
● As universidades do Brasil ainda não oferecem 
graduação para formação de cientistas de dados
Competências 
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
De onde ?
Ferramentas de Big Data
Software Livre
Software Livre 
● "Software livre" se refere à liberdade dos usuários 
executarem, copiarem, distribuírem, estudarem, modificarem e 
aperfeiçoarem o software. São 4 tipos de liberdade, para os 
usuários do software: 
● 1. A liberdade de executar o programa, para qualquer propósito. 
● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas 
necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. 
● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. 
● 4. A liberdade de aperfeiçoar o programa, e liberar 
os seus aperfeiçoamentos, de modo que toda a 
comunidade se beneficie.
Open Source 
● Criado pela OSI (Open Source Initiative) 
● Não refere-se a software também conhecido por software 
livre. 
● Qualquer licença de software 
livre é também uma licença 
de código aberto 
(Open Source) 
● Mas o contrário nem sempre é 
verdade 
● Criado por Eric Raymond e 
outros fundadores da OSI.
Free Software X OSI 
● 4 Lei da GPL 
● OBRIGATORIEDADE: 
A liberdade de aperfeiçoar o programa, e 
liberar os seus aperfeiçoamentos, de modo 
que toda a comunidade se beneficie. 
X
Muitos das melhores e mais 
conhecidas ferramentas de dados 
disponíveis são grandes projetos 
de código aberto. O mais 
conhecido deles é o Hadoop, o 
que está gerando toda uma 
indústria de serviços e produtos 
relacionados.
Hadoop 
● O Apache Hadoop é um projeto de software open-source 
escrito em Java. Escalável, confiável e com processamento 
distribuído. 
● Filesystem Distribuído 
● Inspirado Originalmente pelo GFS e MapReduce da Google 
( Modelo de programação MapReduce) 
● Utiliza-se de Hardware Comum ( Commodity cluster 
computing ) 
● Framework para computação distribuída 
● infraestrutura confiável capaz de lidar com falhas ( hardware, 
software, rede )
Distribuições Hadoop 
● Open Source 
Apache 
● Comercial 
Open Source 
- Cloudera 
- HortoWorks 
- MapR 
- AWS MapReduce
Motivações Atuais - 
Hadoop 
● Grande quantidade ( massiva ) de dados 
● Dados não cabem em uma máquina 
● Demoram muito para processar de forma serial 
● Máquinas individuais falham 
● Computação nas nuvens 
● Escalabilidade de aplicações 
● Computação sob demanda
Ecosistema - Hadoop
O que é HDFS 
● Hadoop Filesystem 
● Um sistema de arquivos distribuído 
que funciona em grandes aglomerados de 
máquinas de commodities.
Características do HDFS 
● Inspirado em GFS 
● Projetado para trabalhar com arquivos muito 
grandes e grandes volumes 
● Executado em hardware comum 
● Streaming de acesso a dados 
● Replicação e localidade
HDFS 
● Projetado para escalar a petabytes de 
armazenamento, e correr em cima dos 
sistemas de arquivos do sistema 
operacional subjacente.
Arquitetura 
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
HDFS - Replicação 
● Dados de entrada é copiado para HDFS é 
dividido em blocos e cada blocos de dados é 
replicado para várias máquinas
MapReduce 
● É um modelo de programação desenhado 
para processar grandes volumes de dados em 
paralelo, dividindo o trabalho em um conjunto 
de tarefas independentes
Programação Distribuída
MapReduce 
Você especifica o map (...) e reduce (...) 
funções 
● map = (lista (k, v) -> lista (k, v)) 
● reduce = (k, lista (v) -> k, v) 
O Framework faz o resto 
● Dividir os dados 
● Executa vários mappers sobre as divisões 
● Embaralhar os dados para os redutores 
● Executa vários redutores 
● Guarda os resultados finais
MapReduce 
Map Reduce
Outros componentes 
● Hive - Armazém de dados (datawarehouse) 
distribuídos. Gerencia os dados armazenados 
no HDFS e fornece uma linguagem de consulta 
baseada em SQL para consultar os dados.
Hbase 
● Banco de dados orientada por colunas 
distribuída. HBase usa o HDFS por sua 
subjacente de armazenamento e suporta os 
cálculos de estilo lote usando MapReduce e 
ponto consultas (leituras aleatórias)
Outros componentes 
● ZooKeeper – Serviço de coordenação altamente 
disponível e distribuído. Fornece funções de bloqueios 
distribuídos que podem ser usados para a construção 
de aplicações distribuídas. 
● Sqoop – Ferramenta para a movimentação eficiente 
de dados entre bancos de dados relacionais e HDFS. 
● Mahout - Aprendizagem de máquina 
escalável, de fácil uso comercial para 
a construção de aplicativos inteligentes
● Solução de BI Open Source. 
● Tem versões Community Edition e Enterprise 
Edition. 
● Solução completa de BI e BA ( ETL, 
Reporting, Mineração, OLAP e Dashbards, 
etc)
Pentaho Orquestrando 
Hadoop
Possibilidades de Uso 
● DataWareHouse 
● Business Intelligence 
● Aplicações analíticas 
● Mídias Sociais 
● Sugestão de Compras 
● Analise preditiva 
● Compras Coletivas 
● Recomendações
Modelo tradicional de Uso
Resultado 
● 
● 
● 
● 
● 
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados 
que são processados em tempo real 
Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber 
quando um jogador chegou ao seu limite físico 
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua 
participação nos jogos além do seu desempenho físico e média da equipe
Empresa Usando Hadoop 
● Amazon 
● Facebook 
● Google 
● IBM 
● Yahoo 
● Linkedin 
● Joost 
● Last.fm 
● New York Times 
● PowerSet 
● Veoh 
● Twitter 
● Ebay
Big Data no Brasil e com 
Hadoop
Principais desafios 
● O Big Data não envolve só mudança de tecnologia, envolve adaptação 
de processos e treinamento relacionado à mudanç de gestão e analise 
de dados ( MERITALK BIG DATA EXCHANGE, 2013) 
● A maioria dos lideres não seba lidar com essa grande variedade e 
quantidade de informações, e não tem conhecimento dos benefícios 
que uma analise bem feita destas dados poderia tazer ao seu 
negocio( COMPUTERWORLD, 2012) 
● Falta da cultura: a maioria das empresas não fazem um bom trabalho 
com as informações que já tem. 
● Desafios dos Os 5 V ! 
● Privacidade, A identidade do usuário, mesmo preservada pode ser 
buscada... ( Marco Civil da Internet )
Recomendações 
● Comece com o problema , e não com os 
dados 
● Compartilhe dados para receber dados 
● Suporte gerencial e executivo 
● Orçamento suficiente 
● Melhores parceiros e fornecedores
Big Data 
● “Big Data hoje é o que era a 
Web em 1993. 
● Sabemos que será algo 
grande, mas não sabemos 
como...” COPPEAD/UFRJ
Convite – Próximos 
Eventos 
● Latinoware 2014 
● Pentaho Day Brasil 2015 
● FISL 2015
Contatos 
● e-mail: 
● marcio @ ambientelivre.com.br 
● http://twitter.com/ambientelivre 
● @ambientelivre 
● @marciojvieira 
● Blog 
blogs.ambientelivre.com.br/marcio 
● Facebook/ambientelivre

Weitere ähnliche Inhalte

Was ist angesagt?

XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 

Was ist angesagt? (19)

XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 

Andere mochten auch

Redes Neurais e Python
Redes Neurais e PythonRedes Neurais e Python
Redes Neurais e Pythonpugpe
 
Python e Aprendizagem de Máquina (Inteligência Artificial)
Python e Aprendizagem de Máquina (Inteligência Artificial)Python e Aprendizagem de Máquina (Inteligência Artificial)
Python e Aprendizagem de Máquina (Inteligência Artificial)Marcel Caraciolo
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Orientação a Objetos em Python
Orientação a Objetos em PythonOrientação a Objetos em Python
Orientação a Objetos em PythonLuciano Ramalho
 
Python para iniciantes
Python para iniciantesPython para iniciantes
Python para iniciantesrichardsonlima
 
Computação Científica com Python, Numpy e Scipy
Computação Científica com Python, Numpy e ScipyComputação Científica com Python, Numpy e Scipy
Computação Científica com Python, Numpy e ScipyMarcel Caraciolo
 
Cientista da computacao usando python
Cientista da computacao usando pythonCientista da computacao usando python
Cientista da computacao usando pythonJean Lopes
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmica
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmicaPepe Legal Python e Babalu MongoDB, uma dupla dinâmica
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmicaFATEC São José dos Campos
 
Lista funcões e recursividade
Lista funcões e recursividadeLista funcões e recursividade
Lista funcões e recursividadeAnielli Lemes
 
Desvendando a Plataforma de Serviços Windows Azure
Desvendando a Plataforma de Serviços Windows AzureDesvendando a Plataforma de Serviços Windows Azure
Desvendando a Plataforma de Serviços Windows AzureLucasRomao
 
BIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana AndradeBIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana Andradebibliocampsp
 
Introdução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureIntrodução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureGiovanni Bassi
 
Como Python está mudando a forma de aprendizagem à distância no Brasil
Como Python está mudando a forma de aprendizagem à distância no BrasilComo Python está mudando a forma de aprendizagem à distância no Brasil
Como Python está mudando a forma de aprendizagem à distância no BrasilMarcel Caraciolo
 
AAB308 - Cloud Computing Windows Azure - wcamb.pdf
AAB308 - Cloud Computing Windows Azure - wcamb.pdfAAB308 - Cloud Computing Windows Azure - wcamb.pdf
AAB308 - Cloud Computing Windows Azure - wcamb.pdfMicrosoft Brasil
 

Andere mochten auch (20)

Redes Neurais e Python
Redes Neurais e PythonRedes Neurais e Python
Redes Neurais e Python
 
Python e Aprendizagem de Máquina (Inteligência Artificial)
Python e Aprendizagem de Máquina (Inteligência Artificial)Python e Aprendizagem de Máquina (Inteligência Artificial)
Python e Aprendizagem de Máquina (Inteligência Artificial)
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Orientação a Objetos em Python
Orientação a Objetos em PythonOrientação a Objetos em Python
Orientação a Objetos em Python
 
Python para iniciantes
Python para iniciantesPython para iniciantes
Python para iniciantes
 
Big Data com Python
Big Data com PythonBig Data com Python
Big Data com Python
 
Computação Científica com Python, Numpy e Scipy
Computação Científica com Python, Numpy e ScipyComputação Científica com Python, Numpy e Scipy
Computação Científica com Python, Numpy e Scipy
 
Aprendendo python
Aprendendo pythonAprendendo python
Aprendendo python
 
Cientista da computacao usando python
Cientista da computacao usando pythonCientista da computacao usando python
Cientista da computacao usando python
 
Api facebook
Api facebookApi facebook
Api facebook
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmica
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmicaPepe Legal Python e Babalu MongoDB, uma dupla dinâmica
Pepe Legal Python e Babalu MongoDB, uma dupla dinâmica
 
Lista funcões e recursividade
Lista funcões e recursividadeLista funcões e recursividade
Lista funcões e recursividade
 
Desvendando a Plataforma de Serviços Windows Azure
Desvendando a Plataforma de Serviços Windows AzureDesvendando a Plataforma de Serviços Windows Azure
Desvendando a Plataforma de Serviços Windows Azure
 
BIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana AndradeBIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana Andrade
 
A plataforma Azure da Microsoft
A plataforma Azure da MicrosoftA plataforma Azure da Microsoft
A plataforma Azure da Microsoft
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Introdução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureIntrodução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows Azure
 
Como Python está mudando a forma de aprendizagem à distância no Brasil
Como Python está mudando a forma de aprendizagem à distância no BrasilComo Python está mudando a forma de aprendizagem à distância no Brasil
Como Python está mudando a forma de aprendizagem à distância no Brasil
 
AAB308 - Cloud Computing Windows Azure - wcamb.pdf
AAB308 - Cloud Computing Windows Azure - wcamb.pdfAAB308 - Cloud Computing Windows Azure - wcamb.pdf
AAB308 - Cloud Computing Windows Azure - wcamb.pdf
 

Ähnlich wie Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Ciro Cavani
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Thiago Santiago
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Rodrigo Ribeiro
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 

Ähnlich wie Palestra: Cientista de Dados – Dominando o Big Data com Software Livre (20)

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Big Data
Big DataBig Data
Big Data
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data
Big DataBig Data
Big Data
 

Mehr von Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectAmbiente Livre
 

Mehr von Ambiente Livre (19)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

  • 1. Cientista de Dados – Dominando o Big Data com Software Livre XIII Semana de Atualização em Tecnologia da Informação Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2. Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Hadoop e Pentaho
  • 5. Big Data - Muito se fala...
  • 6. 2005 na apresentação do Papa Bento XVI
  • 7. 2013 na apresentação do Papa Francisco
  • 8.
  • 9. Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 11. Os 4 V's ● Velocidade , Volume , Variedade e Valor
  • 12. Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 13. Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 14. Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 15. Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 16. O novo V: Veracidade Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .
  • 17. O momento é agora
  • 18. Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 19. Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  • 20. Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 21. Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 22. Case Linkendin ● Pesquisador, percebeu que a rede social estava monótona e que as pessoas realizavam poucas interações. ● Sugeriu um algoritmo que apresentasse sugestões de amizades, conhecido como ‘People You May Know’, ● Foi um sucesso e ajudou com que a rede se tornasse uma das mais utilizadas no mundo. ● O algoritmo utilizava informações disponibilizadas nos perfis, por exemplo, o colégio onde o usuário cursou o Ensino Médio. Comparando com os outros usuários, o algoritmo poderia sugerir pessoas que também estudaram no mesmo colégio, fazendo assim que as pessoas aumentassem seu número de conexões, proporcionando maiores interações.
  • 23. Cases
  • 24. O Profissional “data scientist” Novo profissional: Cientista de Dados
  • 25. Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  • 26. Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 30. Software Livre ● "Software livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie.
  • 31. Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond e outros fundadores da OSI.
  • 32. Free Software X OSI ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  • 33. Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
  • 34. Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 35. Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  • 36. Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  • 38. O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  • 39. Características do HDFS ● Inspirado em GFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade
  • 40. HDFS ● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
  • 42. HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 43. MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  • 45. MapReduce Você especifica o map (...) e reduce (...) funções ● map = (lista (k, v) -> lista (k, v)) ● reduce = (k, lista (v) -> k, v) O Framework faz o resto ● Dividir os dados ● Executa vários mappers sobre as divisões ● Embaralhar os dados para os redutores ● Executa vários redutores ● Guarda os resultados finais
  • 47. Outros componentes ● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  • 48. Hbase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
  • 49. Outros componentes ● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. ● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. ● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
  • 50. ● Solução de BI Open Source. ● Tem versões Community Edition e Enterprise Edition. ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 52. Possibilidades de Uso ● DataWareHouse ● Business Intelligence ● Aplicações analíticas ● Mídias Sociais ● Sugestão de Compras ● Analise preditiva ● Compras Coletivas ● Recomendações
  • 54. Resultado ● ● ● ● ● Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados que são processados em tempo real Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber quando um jogador chegou ao seu limite físico Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua participação nos jogos além do seu desempenho físico e média da equipe
  • 55. Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  • 56. Big Data no Brasil e com Hadoop
  • 57. Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudanç de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia tazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 58. Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 59. Big Data ● “Big Data hoje é o que era a Web em 1993. ● Sabemos que será algo grande, mas não sabemos como...” COPPEAD/UFRJ
  • 60. Convite – Próximos Eventos ● Latinoware 2014 ● Pentaho Day Brasil 2015 ● FISL 2015
  • 61. Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre