Mais conteúdo relacionado Semelhante a Azure Summit 2014 - BigData com HDInsight no Azure (20) Mais de Diego Nogare (20) Azure Summit 2014 - BigData com HDInsight no Azure2. AUDITÓRIO 3
DATA / ANALYSIS
Big Data com
HDInsight no Azure
Palestrante
Diego Nogare
MVP em SQL Server
@DiegoNogare
http://www.diegonogare.net
7. Volume
Velocidade
Veracidade
Variedade
BigData é sobre
Volume, Velocidade,
Variedade e Veraci…
Veracidade não
é uma medida
de magnitude!!!
8. 15%
Dados
Estruturados
Fonte: Apresentação da Gartner ‘O Gerenciamento 'Radical‘
de Informações': Os Maiores Desafios para CIOs do Século 21
Mark Beyer, Outubro 2011
85%
Dados Não
Estruturados
11. NY Stock
1TB/Dia
Internet Archive
2PT + 20TB/Mês
Large Hadron Collider
15PT/Ano
Ancestry.com
2.5PT
Facebook
10 bilhões fotos
1PT
15. Desafios Técnicos
• Péssima qualidade dos dados
• Dados sujos
• “Valores Nulos”
• Tipos de dados inadequados
21. Como Aprender
• Coursera: https://www.coursera.org/specialization/jhudatascience/1
• Udemy: https://www.udemy.com/courses/search/?q=data+science
• Udacity: https://www.udacity.com/courses#!/data-science
• MIT OpenCourseWare: http://ocw.mit.edu/index.htm
• Harvard Open Course: http://www.extension.harvard.edu/courses/data-science
22. Fontes
• Hype Cycle: https://www.gartner.com/doc/2813223/hype-cycle-business-intelligence-analytics
• Onde estão os dados: Hadoop: Definitive guide. (O’Reilly) Tom White. 2011
• Vídeo completo (Canal WIRED): http://www.youtube.com/watch?v=Hi5kMNfgDS4
23. Links complementares
• MapReduce: https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html#Overview
• Hive: https://hive.apache.org/
• Pig: https://pig.apache.org/
• HBase: https://hbase.apache.org/
• HDFS: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Introduction
• Sqoop: http://sqoop.apache.org/
24. AUDITÓRIO 3
DATA / ANALYSIS
Dúvidas?!
Palestrante
@DiegoNogare
http://www.diegonogare.net
http://www.livrosdonogare.com.br
Notas do Editor Hype Cycle é um gráfico gerado pelo Gartner