SlideShare ist ein Scribd-Unternehmen logo
1 von 44
#JSS2014
Les journées
SQL Server 2014
Un événement organisé par GUSS
#JSS2014
Les journées
SQL Server 2014
Un événement organisé par GUSS
Ma première analyse
Machine Learning avec
Azure ML
Florian Eiden – Déc. 2014
#JSS2014
Merci à nos sponsors
#JSS2014
> 100
billets de
blog / an
> 30
articles
de presse /
an
8 MVP
7 MCT
4 P-Sellers
> 12j / an
/pers. de
formation
Cabinet de conseil IT
et centre de formation
spécialisé dans les
technologies Microsoft
et méthodes Agiles.
Cloud &
Integration
Collaboration &
Content
Data & Analytics
Application
Development
ALM & Agilité
#JSS2014
Data & Analytics
#JSS2014
#JSS2014
En BI : coincé à la connaissance
#JSS2014
#JSS2014
Construire des systèmes capables
d’apprendre de leurs expériences
Machine Learning
coursera.org/course/ml
#JSS2014
Intéressant mais risqué…
drewconway.com
Business
Intelligence
#JSS2014
Pro de la BI
Machine
Learning
#JSS2014
Cette session…
#JSS2014
Vendre mon appartement à Paris
• Mon appart
– Paris
– 2 pièces
– 55m2
#JSS2014
• Je veux vendre mon appartement, comment
déterminer le prix en fonction de sa superficie?
Superficie (m2)
Prix (€)
Mon appart
Ma question
#JSS2014
Identifier un pattern!
• Des données existantes on peut identifier un motif qui
appliqué à mon cas me permettrait de trouver le prix du
marché
Superficie (m2)
Prix (€)
Mon appart
Prix du marché
#JSS2014
Identifier un pattern!
• Des données existantes on peut identifier un motif qui
appliqué à mon cas me permettrait de trouver le prix du
marché
Superficie (m2)
Prix (€)
Mon appart
Prix du marché
Boum, Machine
Learning!
#JSS2014
En pratique: Le dataset
#JSS2014
En pratique : La modélisation
Superficie (m2)
Prix (€)
Mon appart
Prix du marché
On devine une mesure connue
(prix) à partir d’un exemple :
Apprentissage supervisé
De valeurs discrètes (PAP) on
obtient un ensemble continue
(la courbe verte) : Régression
On est niveau chaton :
Régression Linéaire à 1 feature
(superficie)
y = ax + b
y : prix
x : superficie
#JSS2014
Ce qu’on m’a vendu!
Ma superficie
Une prédiction de bon
prix de vente pour
mon appart
La magie
du ML!
#JSS2014
x y
y = ax + b
1. Configuration
Superficie (m2)
Prix (€)
Mon appart
#JSS2014
x y
y = ax + b
1. Configuration
Superficie (m2)
Prix (€)
Mon appart
#JSS2014
x y
y = ax + b
2. Test
Superficie (m2)
Prix (€)
Mon appart
#JSS2014
x y
y = ax + b
Superficie (m2)
Prix (€)
Mon appart
Ma superficie
Une prédiction de bon
prix de vente pour
mon appart
3. Utilisation
#JSS2014
x y
y = ax + b
Superficie (m2)
Prix (€)
Mon appart
3. Utilisation
h
l’hypothèse
Input : x
Ma superficie
Output : y
Prédiction de
prix du marché
y = h(x)
#JSS2014
y = h(x)
h(x) = hθ(x) = θ0 + θ1x
x
y = h(x)
θ0
y = θ1x + θ0
h
l’hypothèse
Input : x
Ma superficie
Output : y
Prédiction de
prix du marché
#JSS2014
Savoirs s’ils sont bons ou pas? Pour choisir les
meilleurs?
Comment noter les paramètres?
x
y = h(x)
θ0
y = θ1x + θ0
Fonction-coût / Cost Function
#JSS2014
Savoirs s’ils sont bons ou pas? Pour choisir les
meilleurs?
Comment noter les paramètres?
x
y = h(x)
θ0
y = θ1x + θ0
J(θi)
Fonction-coût / Cost Function
Calcule la distance totale entre
mon modèle et tous les
exemples du training set
#JSS2014
2 exemples, même training set
x
y
x
y
θ0
Modèle 1
θ0 = 1
θ1 = 0
y = θ1x + θ0
Modèle 2
θ0 = 1
θ1 = 0,25
#JSS2014
2 exemples, même training set
x
y
x
y
θ0
Modèle 1
θ0 = 1
θ1 = 0
y = θ1x + θ0
Modèle 2
θ0 = 1
θ1 = 0,25
Prix du
marché
Prix du
marché
#JSS2014
Cost Function : J(θ0 ,θ1)
x
y
x
y
θ0
Modèle 1
θ0 = 1
θ1 = 0
Modèle 2
θ0 = 0,25
θ1 = 1
J(θ0 ,θ1) = 25 J(θ0 ,θ1) = 5
#JSS2014
• Une méthode parmi d’autres
• Sa formule:
Cost function – Squarred Error
#JSS2014
On a les données training set
On a un modèle type h(x) = θ0 + θ1x
On sait le noter J(θ0 ,θ1)
La dernière pièce du puzzle
#JSS2014
On a les données training set
On a un modèle type h(x) = θ0 + θ1x
On sait le noter J(θ0 ,θ1)
Méthode d’optimisation Gradient Descent
La dernière pièce du puzzle
#JSS2014
Gradient Descent
1 – On essaye des premières
valeurs au hasard
2 – On fait varier les
paramètres simultanément
d’un delta basé sur leur
dérivée partielle de J
2.1 - Si J est meilleur on
continue
2.2 – Sinon on peut
s’arrêter
NB : oui GD ne trouve que les
minimums locaux, mais la LR est
convexe (pas d’optimum locaux)
#JSS2014
x y
y = ax + b
Superficie (m2)
Prix (€)
Mon appart
Vue globale
Input : x
Ma superficie
Output : y
Prédiction de
prix du marché
y = h(x)
Fonction-coût
Méthode d’optimisation
h
l’hypothèse
#JSS2014
x y
y = ax + b
Superficie (m2)
Prix (€)
Mon appart
Vue globale
Input : x
Ma superficie
Output : y
Prédiction de
prix du marché
y = h(x)
Fonction-coût
Méthode d’optimisation
h
l’hypothèse
#JSS2014
Azure ML http://studio.azureml.net
Azure ML Excel Addin http://azuremlexcel.codeplex.com
#JSS2014
Attention!
Underfit
High bias
Overfit
High variance
#JSS2014
1. Plus de données!
2. Meilleures features
Régression polynomiale
3. Tester d’autres algorithmes
Aller plus loin?
#JSS2014
• Apprentissage supervisé
Je veux deviner la bonne réponse à partir d’exemples
– De valeurs discrètes à continue : Régression
– Ex : Prix des appartements
– De valeurs discrètes à une classe : Classification
– Ex : Aide au diagnostique médical (malade ou pas)
• Apprentissage non supervisé
Je veux trouver un pattern dans une donnée non classée
– Clustering / Segmentation
– Ex : Regrouper mes clients en sous-populations pour optimiser
mes e-mailings
Un pas de recul
#JSS2014
Conclusion
Maintenant que ça n’est plus un problème d’outil
Il est temps d’apprendre la théorie…
#JSS2014
Et tout ira bien ;)
#JSS2014
http://guss.pro/jss
#JSS2014#JSS2014

Weitere ähnliche Inhalte

Andere mochten auch

Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Le_GFII
 
Data2Content - Datajournalisme - Machine Learning - Meet Up Paris
Data2Content - Datajournalisme - Machine Learning - Meet Up ParisData2Content - Datajournalisme - Machine Learning - Meet Up Paris
Data2Content - Datajournalisme - Machine Learning - Meet Up ParisChristophe Tricot
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...AZUG FR
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...Guillaume MOCQUET
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Julien Deneuville
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tousDamien Seguy
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonMicrosoft
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamMicrosoft Décideurs IT
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)Franck Bardol
 
E learning v2008 nouveaux-cours
E learning v2008 nouveaux-coursE learning v2008 nouveaux-cours
E learning v2008 nouveaux-courswalandrea
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisGuillaume Kpotufe
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Le futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitLe futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitFrederic Kaplan
 
Machine learning
Machine learningMachine learning
Machine learningebiznext
 
Machine Learning - Spark / MLlib
Machine Learning - Spark / MLlibMachine Learning - Spark / MLlib
Machine Learning - Spark / MLlibebiznext
 

Andere mochten auch (20)

Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...
 
Data2Content - Datajournalisme - Machine Learning - Meet Up Paris
Data2Content - Datajournalisme - Machine Learning - Meet Up ParisData2Content - Datajournalisme - Machine Learning - Meet Up Paris
Data2Content - Datajournalisme - Machine Learning - Meet Up Paris
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...
[Sildes] plateforme centralisée d’analyse des logs des frontaux http en temps...
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en Python
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de Spam
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)
 
E learning v2008 nouveaux-cours
E learning v2008 nouveaux-coursE learning v2008 nouveaux-cours
E learning v2008 nouveaux-cours
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur Hybris
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Démystification du Machine Learning
Démystification du Machine LearningDémystification du Machine Learning
Démystification du Machine Learning
 
Le futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitLe futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il était
 
Machine learning
Machine learningMachine learning
Machine learning
 
Machine Learning - Spark / MLlib
Machine Learning - Spark / MLlibMachine Learning - Spark / MLlib
Machine Learning - Spark / MLlib
 

Ähnlich wie JSS2014 – Ma première analyse Machine Learning avec Azure ML

Algorithmes distribues pour le big data @ DevoxxFR 2015
Algorithmes distribues pour le big data @ DevoxxFR 2015Algorithmes distribues pour le big data @ DevoxxFR 2015
Algorithmes distribues pour le big data @ DevoxxFR 2015Duyhai Doan
 
Combien coûte un bon serious game ?
Combien coûte un bon serious game ?Combien coûte un bon serious game ?
Combien coûte un bon serious game ?Succubuscomm
 
NightClazz Spark / Machine Learning
NightClazz Spark / Machine LearningNightClazz Spark / Machine Learning
NightClazz Spark / Machine LearningZenika
 
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...Jedha Bootcamp
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...Game Camp France
 

Ähnlich wie JSS2014 – Ma première analyse Machine Learning avec Azure ML (6)

Algorithmes distribues pour le big data @ DevoxxFR 2015
Algorithmes distribues pour le big data @ DevoxxFR 2015Algorithmes distribues pour le big data @ DevoxxFR 2015
Algorithmes distribues pour le big data @ DevoxxFR 2015
 
Combien coûte un bon serious game ?
Combien coûte un bon serious game ?Combien coûte un bon serious game ?
Combien coûte un bon serious game ?
 
NightClazz Spark / Machine Learning
NightClazz Spark / Machine LearningNightClazz Spark / Machine Learning
NightClazz Spark / Machine Learning
 
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...
Introduction au Machine Learning - Frédéric Enard, Data Scientist chez TF1 Le...
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...
Penser son game concept pour le long terme - Alexandre Besenval - Game Camp F...
 

Mehr von GUSS

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS
 
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)GUSS
 
JSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossJSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossGUSS
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS
 
JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2GUSS
 
JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1GUSS
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
 
[JSS2015] Power BI Dev
[JSS2015] Power BI Dev[JSS2015] Power BI Dev
[JSS2015] Power BI DevGUSS
 
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch TablesGUSS
 
[JSS2015] Query Store
[JSS2015] Query Store[JSS2015] Query Store
[JSS2015] Query StoreGUSS
 
[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexsGUSS
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybridesGUSS
 
[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale outGUSS
 
[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analyticsGUSS
 
[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocksGUSS
 
[JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics [JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics GUSS
 
[JSS2015] - Azure automation
[JSS2015] - Azure automation[JSS2015] - Azure automation
[JSS2015] - Azure automationGUSS
 
[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016GUSS
 
[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosqlGUSS
 
[JSS2015] x events
[JSS2015] x events[JSS2015] x events
[JSS2015] x eventsGUSS
 

Mehr von GUSS (20)

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
 
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
 
JSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossJSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a boss
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the Web
 
JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2
 
JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
[JSS2015] Power BI Dev
[JSS2015] Power BI Dev[JSS2015] Power BI Dev
[JSS2015] Power BI Dev
 
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
 
[JSS2015] Query Store
[JSS2015] Query Store[JSS2015] Query Store
[JSS2015] Query Store
 
[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides
 
[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out
 
[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics
 
[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks
 
[JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics [JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics
 
[JSS2015] - Azure automation
[JSS2015] - Azure automation[JSS2015] - Azure automation
[JSS2015] - Azure automation
 
[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016
 
[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql
 
[JSS2015] x events
[JSS2015] x events[JSS2015] x events
[JSS2015] x events
 

JSS2014 – Ma première analyse Machine Learning avec Azure ML

  • 1. #JSS2014 Les journées SQL Server 2014 Un événement organisé par GUSS
  • 2. #JSS2014 Les journées SQL Server 2014 Un événement organisé par GUSS Ma première analyse Machine Learning avec Azure ML Florian Eiden – Déc. 2014
  • 4. #JSS2014 > 100 billets de blog / an > 30 articles de presse / an 8 MVP 7 MCT 4 P-Sellers > 12j / an /pers. de formation Cabinet de conseil IT et centre de formation spécialisé dans les technologies Microsoft et méthodes Agiles. Cloud & Integration Collaboration & Content Data & Analytics Application Development ALM & Agilité
  • 7. #JSS2014 En BI : coincé à la connaissance
  • 9. #JSS2014 Construire des systèmes capables d’apprendre de leurs expériences Machine Learning coursera.org/course/ml
  • 11. #JSS2014 Pro de la BI Machine Learning
  • 13. #JSS2014 Vendre mon appartement à Paris • Mon appart – Paris – 2 pièces – 55m2
  • 14. #JSS2014 • Je veux vendre mon appartement, comment déterminer le prix en fonction de sa superficie? Superficie (m2) Prix (€) Mon appart Ma question
  • 15. #JSS2014 Identifier un pattern! • Des données existantes on peut identifier un motif qui appliqué à mon cas me permettrait de trouver le prix du marché Superficie (m2) Prix (€) Mon appart Prix du marché
  • 16. #JSS2014 Identifier un pattern! • Des données existantes on peut identifier un motif qui appliqué à mon cas me permettrait de trouver le prix du marché Superficie (m2) Prix (€) Mon appart Prix du marché Boum, Machine Learning!
  • 18. #JSS2014 En pratique : La modélisation Superficie (m2) Prix (€) Mon appart Prix du marché On devine une mesure connue (prix) à partir d’un exemple : Apprentissage supervisé De valeurs discrètes (PAP) on obtient un ensemble continue (la courbe verte) : Régression On est niveau chaton : Régression Linéaire à 1 feature (superficie) y = ax + b y : prix x : superficie
  • 19. #JSS2014 Ce qu’on m’a vendu! Ma superficie Une prédiction de bon prix de vente pour mon appart La magie du ML!
  • 20. #JSS2014 x y y = ax + b 1. Configuration Superficie (m2) Prix (€) Mon appart
  • 21. #JSS2014 x y y = ax + b 1. Configuration Superficie (m2) Prix (€) Mon appart
  • 22. #JSS2014 x y y = ax + b 2. Test Superficie (m2) Prix (€) Mon appart
  • 23. #JSS2014 x y y = ax + b Superficie (m2) Prix (€) Mon appart Ma superficie Une prédiction de bon prix de vente pour mon appart 3. Utilisation
  • 24. #JSS2014 x y y = ax + b Superficie (m2) Prix (€) Mon appart 3. Utilisation h l’hypothèse Input : x Ma superficie Output : y Prédiction de prix du marché y = h(x)
  • 25. #JSS2014 y = h(x) h(x) = hθ(x) = θ0 + θ1x x y = h(x) θ0 y = θ1x + θ0 h l’hypothèse Input : x Ma superficie Output : y Prédiction de prix du marché
  • 26. #JSS2014 Savoirs s’ils sont bons ou pas? Pour choisir les meilleurs? Comment noter les paramètres? x y = h(x) θ0 y = θ1x + θ0 Fonction-coût / Cost Function
  • 27. #JSS2014 Savoirs s’ils sont bons ou pas? Pour choisir les meilleurs? Comment noter les paramètres? x y = h(x) θ0 y = θ1x + θ0 J(θi) Fonction-coût / Cost Function Calcule la distance totale entre mon modèle et tous les exemples du training set
  • 28. #JSS2014 2 exemples, même training set x y x y θ0 Modèle 1 θ0 = 1 θ1 = 0 y = θ1x + θ0 Modèle 2 θ0 = 1 θ1 = 0,25
  • 29. #JSS2014 2 exemples, même training set x y x y θ0 Modèle 1 θ0 = 1 θ1 = 0 y = θ1x + θ0 Modèle 2 θ0 = 1 θ1 = 0,25 Prix du marché Prix du marché
  • 30. #JSS2014 Cost Function : J(θ0 ,θ1) x y x y θ0 Modèle 1 θ0 = 1 θ1 = 0 Modèle 2 θ0 = 0,25 θ1 = 1 J(θ0 ,θ1) = 25 J(θ0 ,θ1) = 5
  • 31. #JSS2014 • Une méthode parmi d’autres • Sa formule: Cost function – Squarred Error
  • 32. #JSS2014 On a les données training set On a un modèle type h(x) = θ0 + θ1x On sait le noter J(θ0 ,θ1) La dernière pièce du puzzle
  • 33. #JSS2014 On a les données training set On a un modèle type h(x) = θ0 + θ1x On sait le noter J(θ0 ,θ1) Méthode d’optimisation Gradient Descent La dernière pièce du puzzle
  • 34. #JSS2014 Gradient Descent 1 – On essaye des premières valeurs au hasard 2 – On fait varier les paramètres simultanément d’un delta basé sur leur dérivée partielle de J 2.1 - Si J est meilleur on continue 2.2 – Sinon on peut s’arrêter NB : oui GD ne trouve que les minimums locaux, mais la LR est convexe (pas d’optimum locaux)
  • 35. #JSS2014 x y y = ax + b Superficie (m2) Prix (€) Mon appart Vue globale Input : x Ma superficie Output : y Prédiction de prix du marché y = h(x) Fonction-coût Méthode d’optimisation h l’hypothèse
  • 36. #JSS2014 x y y = ax + b Superficie (m2) Prix (€) Mon appart Vue globale Input : x Ma superficie Output : y Prédiction de prix du marché y = h(x) Fonction-coût Méthode d’optimisation h l’hypothèse
  • 37. #JSS2014 Azure ML http://studio.azureml.net Azure ML Excel Addin http://azuremlexcel.codeplex.com
  • 39. #JSS2014 1. Plus de données! 2. Meilleures features Régression polynomiale 3. Tester d’autres algorithmes Aller plus loin?
  • 40. #JSS2014 • Apprentissage supervisé Je veux deviner la bonne réponse à partir d’exemples – De valeurs discrètes à continue : Régression – Ex : Prix des appartements – De valeurs discrètes à une classe : Classification – Ex : Aide au diagnostique médical (malade ou pas) • Apprentissage non supervisé Je veux trouver un pattern dans une donnée non classée – Clustering / Segmentation – Ex : Regrouper mes clients en sous-populations pour optimiser mes e-mailings Un pas de recul
  • 41. #JSS2014 Conclusion Maintenant que ça n’est plus un problème d’outil Il est temps d’apprendre la théorie…

Hinweis der Redaktion

  1. Vrai merci Le budget des JSS c’est plusieurs 10K€. GUSS = Association, 0€ en banque Chacun des sponsors c’est des vrais gens qui décident d’offrir un événement à la communauté, en échange d’un peu de visibilité Au minimum lisez les plaquettes ;) A max pensez à eux si besoin d’un coup de main sur vos projets, ou dans vos carrières
  2. Parmi les sponsors Cellenza, ma boîte 5 pôles d’activités dont celui que je manage: Data & Analytics En fait il est relativement récent ce pôle, Juin 2014, et au moment de le nommer on s’est posé la question: BI, Data, Data Insight (genre MS)…
  3. On a choisit D&A, avec cette définition d’Analytics Patterns : motifs Ex : Saisonnalité des ventes, une population d’utilisateur spécifique de mon service – aux besoins spécifiques (hardcore gamer) … Et la BI est une sous-partie de ça, comme le Machine Learning…
  4. BI : automatise le descriptive, permet le diagnostic à la main ML : outillage pour le diagnostic / predictive, permet le prescriptive à la main Un exemple simple de ça c’est en retail…
  5. Ex: en retail on sait très bien construire des DWH pour suivre les ventes, gérer les inventaires, suivre la supply chain… On sait savoir ce qu’il se passe Par contre une chute ponctuelle dans les ventes, on ne sait pas forcément la diagnostiquer sans sortir les TCD et faire tous les croisements à la main Avec ML, on va pouvoir quantifier les corrélations entre les événements, et ne rapporter que celles qui ont du sens. Et il reste l’humain au bout pour décider ce qui est bon, mais le gros du travail a été automatisé.
  6. Autre exemple: dans mon usine de production, je sais faire de la BI et reporter sur ce qu’il se passe. Avec ML, je vais pouvoir détecter les symptomes qui préfigurent une panne, à partir de mes données historiques dans le DWH, et comme ça prévoir de la maintenance avant l’éventuelle panne Evidemment on peut construire un script complexe à base de IF/THEN/ELSE pour faire la même chose. Mais autant laisser le PC faire la même chose!
  7. Ce qui nous amène à une définition simple de ML… Et dans une entreprise qui fonctionne bien les expériences elles sont stockées où? Dans le DWH. Autant vous dire qu’au minimum on va récupérer une nouvelle catégorie de client qui va justifier nos tarifs indécents Au maximum on va pouvoir ajouter ces services à nos offres et étendre la portée de nos métiers. Cool!
  8. Et pour illustrer tout ça, on va partir d’un cas plus ou moins théorique
  9. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  10. Comment on apprend le machine learning? Un algorithme à la fois, une typologie de problème à la fois Supervisé VS non supervisé Régression VS classification Toutes les variations sur les régressions, les SVM…
  11. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  12. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  13. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  14. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  15. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  16. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  17. Pourquoi h est fonction de theta? Les thetas sont les paramètres, qui seront evidemment fonction de mon problème. Les theta des 2 pièces à Paris ne seront pas les mêmes que des studio à Albi L’objectif maintenant est de déterminer quels sont les bons theta
  18. Au final on peut essayer toutes les combinaisons de thetas possible, et juste choisir le meilleur Mais comment les meilleurs?
  19. Au final on peut essayer toutes les combinaisons de thetas possible, et juste choisir le meilleur Mais comment les meilleurs?
  20. Ce qui devient un problème mathématique à part entière, en dehors du scope. Le Gradient Descent présente l’énorme avantage d’éviter de se taper la combinatoire de toutes
  21. Quelle approche pour trouver θ0 ,θ1? On essaye toutes les combinatoires?
  22. Gradient Descent : algorithme de minimisation d’une fonction Trop théorique, mathématique, si Coursera vous le ferez, sinon il suffit de savoir qu’il existe, et qu’il en existe plusieurs!
  23. Je me fais les petites annonces, et j’ai un beau dataset : superficie x prix Comment choisir les bons paramètres?
  24. En fonction de chacun de ces choix, j’aurai un résultat différent
  25. Cas 1 : trop timide, pas très précis Cas 2 : trop aggressif, pas assez de données, ne généralisera pas
  26. En fait c’est que des maths…