Big Data : Manage, Refine, Analyze

Big Data : Manage, Refine, Recycle

orenault@hortonworks.com

blaisev@microsoft.com

Souscrivez à l’offre d’essai ou activez
votre accès Azure MSDN

Présentez-vous sur le stand Azure
(zone Services & Tools)

Participez au tirage au sort
à 18h30 le 12 ou le 13 février

Hadoop : Etude d’un cas
d’utilisation

Introduction :
Motivation et Hadoop en environnement
Scénarios Microsoft

Terabytes

Gigabytes

Megabytes

Data Complexity: Variety and Velocity

Volume Velocity

Relational
Data

Variety

Source: IDC's 2012 Vertical IT and
Communications Survey

N=4117

Big Data Challenges :

N=4117

010101010101010101
1010101010101010
01010101010101
101010101010

Discove
Refine
r

Combine

OPERATIONAL DATA
SERVICES SERVICES Hortonworks
AMBARI FLUME PIG HIVE
HBASE
Data Platform (HDP)
OOZIE SQOOP HCATALOG
Enterprise Hadoop
WEBHDFS MAP REDUCE
HADOOP CORE
HDFS YARN (in 2.0)
The ONLY 100% open source and complete
Enterprise Readiness
PLATFORM SERVICES High Availability, Disaster distribution
Recovery, Snapshots, Security, etc…

HORTONWORKS
DATA PLATFORM (HDP) Enterprise grade, proven and tested at
scale
OS Cloud VM Appliance

Ecosystem endorsed to ensure
interoperability

Next-Generation Data Architecture
APPLICATIONS

Business Analytics Custom Applications Enterprise Applications
DEV & DATA
TOOLS
BUILD & TEST
DATA SYSTEMS

OPERATIONAL
TOOLS
HORTONWORKS MANAGE &
DATA PLATFORM MONITOR
RDBMS EDW MPP
TRADITIONAL REPOS
DATA SOURCES

Traditional Sources New Sources
OLTP, POS (RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media)
SYSTEMS

© Hortonworks Inc. 2013

Business Cases

Batch Interactive Online

Refine Explore Enrich

HORTONWORKS
DATA PLATFORM

Big Data
Transactions, Interactions, Observations

APPLICATIONS

Business Analytics Custom Applications Enterprise Applications

Collect data and apply a
known algorithm to it in trusted
operational process
3
DATA SYSTEMS

HORTONWORKS
DATA PLATFORM 2 1 Capture
RDBMS EDW MPP Capture all data
TRADITIONAL REPOS

2 Process
Parse, cleanse, apply structure &
1 transform

3 Exchange
DATA SOURCES

Push to existing data warehouse
Traditional Sources New Sources
(RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media)
for use with existing analytic tools

APPLICATIONS

Business Analytics

Collect data and perform
3 iterative investigation for value
DATA SYSTEMS

HORTONWORKS
DATA PLATFORM 2 1 Capture
RDBMS EDW MPP
TRADITIONAL REPOS Capture all data

2 Process
1 transform
DATA SOURCES

3 Exchange
Traditional Sources New Sources Explore and visualize with
(RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media) analytics tools supporting Hadoop

APPLICATIONS


Custom Applications Enterprise Applications

Collect data, analyze and
present salient results for
3 online apps
DATA SYSTEMS

HORTONWORKS 1 Capture
DATA PLATFORM 2 Capture all data
RDBMS EDW MPP NOSQL
TRADITIONAL REPOS
2 Process
transform
1
3 Exchange
DATA SOURCES

Incorporate data directly into
Traditional Sources New Sources applications
(RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media)

Vertical Refine Explore Enrich
• Dynamic Pricing
• Log Analysis/Site Optimization • Brand and Sentiment Analysis
Retail & Web • Session & Content Optimization
• Loyalty Program Optimization • Market basket analysis
• Product recommendation

Telco • Customer profiling • Equipment failure prediction • Location based advertising

Government • Threat Identification • Person of Interest Discovery • Cross Jurisdiction Queries

• Risk Modeling & Fraud Identification • Surveillance and Fraud Detection • Real-time upsell, cross sales marketing
Finance
• Trade Performance Analytics • Customer Risk Analysis offers

• Grid Failure Prevention
Energy • Smart Grid: Production Optimization • Individual Power Grid
• Smart Meters

• Dynamic Delivery
Manufacturing • Supply Chain Optimization • Customer Churn Analysis
• Replacement parts

• Clinical decision support
Healthcare • Electronic Medical Records (EMPI) • Insurance Premium Determination
• Clinical Trials Analysis

Hébergement du cluster dans Azure
DÉPLOIEMENT D’UN CLUSTER
HORTONWORKS

https://www.hadooponazure.com/
http://www.microsoft.com/en-
us/sqlserver/solutions-
technologies/business-intelligence/big-
data.aspx
http://gettingstarted.hadooponazure.com/
gettingStartedHw.html

Découverte du service Hadoop On Azure
AZURE HD INSIGHT SERVER

• •
• •
•
•

Data locality optimization
Metadata
Ip.csv (583 rows) Reducer
Map Task
Data Node 1 Combiner
- DataNode1 (1-193)
- DataNode2 (194-387) MF-001
MF-002
- DataNode3 (338-583) Ip.csv (1-193) (F;0, M;1
00

MF-193

Split
Name Map Task
Node Ip.csv (194-
MF-194
MF-195
(F;42,
M;41 (F;142,
M;441
387)
MF-387

Map Task
MF-388 (F;100,
Ip.csv (388- MF-389 M;300

583)
MF-583

Map Combiner Reducer
Skip(0) MF-001

ASV
MF-002 (F;0, M;1
00

MF-193

Map Combiner
ASV://mycontainer/myfolder/Ip.csv Skip(194) MF-194 (F;42,
MF-195 M;41 (F;142,
M;441

MF-387

Map Combiner
Skip(388) MF-388 (F;100,
MF-389 M;300

MF-583

Chargement de données de ASV vers HDFS, exécution de
requêtes, agrégation de résultats
AZURE HD INSIGHT SERVER

Registrations
DB Klout.com
(MySql) (Node.js)

Mobile

Klout API
Profile DB (ObjectiveC)

(Scala)
Signal Data (HBase)
Collectors Enhancemen Partner API
(Java/Scala) t Data (Mashery)
Engine Warehouse Search Index
(PIG/Hive) (Hive) (Elastic Search)

Streams
(MongoDB)
Monitoring
(Nagios)
Serving Stores
Dashboards
(Tableau)
Perks Analyics
Analytics (Scala)
Cubes Event Tracker
(SSAS) (Scala)

Case Study: Data Services Firm Uses Microsoft BI and Hadoop to Boost Insight into Big Data

Sources de Business
Acquisition, Stockage, Traitement des données Supervision
données Intelligence

PIG HIVE MAHOUT Pegasus Reporting
CEP

Map/Reduce

OLAP
Data Node
Name Node Data Node
Bulk Load Data Node System Center

RDBMS

Files System
File System
Connector ASV HDFS Application Server

Cloud Services Virtual Machine On-premise

Sources de Business
Acquisition, Stockage, Traitement des données Supervision
données Intelligence

HDInsight Services
SQL Reporting
StreamInsight PIG HIVE MAHOUT Pegasus

Map/Reduce SSRS

Data Node
Name Node Data Node
Plume Data Node SSAS
System Center
SQL
Files System Database

SQOOP
ASV HDFS SharePoint

Microsoft Windows Azure

Agrégation de données issues de multiples sources
AZURE HD INSIGHT SERVER,
SQL2012, POWERPIVOT,
POWERVIEW

• Submit changes back to Apache
Foundation
• ‘Just works’ on Windows Azure
and Server
• Integration with Visual Studio,
Javascript, Excel, etc.
• Performance, Scale, High
Availability
• Management, Ease of use
• Security, Data Governance
• Integration with AD and SC.

• Integrate as part of our overall data
platform

https://www.hadooponazure.com/
http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-
intelligence/big-data.aspx
http://gettingstarted.hadooponazure.com/gettingStartedHw.html
http://weatherservice.cloudapp.net
http://www.srh.noaa.gov/rfcshare/ffg_download/ffg_download.php
http://social.technet.microsoft.com/wiki/contents/articles/14320.processing-noaa-flash-
flood-guidance-data-in-sql-server.aspx
http://blogs.msdn.com/b/sqlcat/archive/2013/02/01/mash-up-hive-sql-server-data-in-
powerpivot-amp-power-view-hurricane-sandy-2012.aspx

4 ouvrages écrits par 13 Microsoftees

http://www.editions-eyrolles.com/livres/Windows-8-pour-les-professionnels

© 2012 Microsoft Microsoft Corporation. Tous droitsMicrosoft,Microsoft, et les autres les autresproduits sont des marques déposées déposées ou descommerciales de Microsoft Microsoft aux États-Unis et/ou dans d'autres pays.
© 2012 Corporation. Tous droits réservés. réservés. Windows Windows et noms de noms de produits sont des marques ou des marques marques commerciales de aux États-Unis et/ou dans d'autres pays.
Les informations contenuescontenues dans ce document sont fournies uniquement à titreElles représentent l'opinion actuelle de Microsoft Microsoft Corporation sur les pointsdate dela date de cette présentation. Microsoftaux conditions fluctuantes du marché etmarché et ce ne doit
Les informations dans ce document sont fournies uniquement à titre indicatif. indicatif. Elles représentent l'opinion actuelle de Corporation sur les points cités à la cités à cette présentation. Microsoft s'adapte s'adapte aux conditions fluctuantes du ce document
pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée toute information présentée aprèsMICROSOFT EXCLUT TOUTE MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE,EN CE QUI
document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de après la date de la présentation. la date de la présentation. GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, IMPLICITE
CONCERNE CETTE PRÉSENTATION. CONCERNE CETTE PRÉSENTATION.
OU STATUTAIRE, EN CE QUI

Big Data : Manage, Refine, Analyze

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Microsoft Décideurs IT

Mehr von Microsoft Décideurs IT (20)

Big Data : Manage, Refine, Analyze

Hinweis der Redaktion