SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
PROJET DATA MINING 1
Table des matières
Présentation du sujet .............................................................................................................................. 3
Introduction......................................................................................................................................... 3
Problématiques ................................................................................................................................... 3
Source de données.............................................................................................................................. 4
Conclusion ........................................................................................................................................... 4
Analyse prédictive sur la contribution du secteur agricole sur le PIB de l'année 2017 .......................... 5
Introduction......................................................................................................................................... 5
Analyse Factorielle et Kmeans............................................................................................................. 5
Qualité de présentation des variables ................................................................................................ 7
Prédire la contribution des secteurs agricoles dans le PIB.................................................................. 7
Résultat de prédiction......................................................................................................................... 8
Prédire la recette monétaire issue du secteur agricole du Canada .................................................... 9
Régression avec SVM......................................................................................................................... 11
Interprétations générales.................................................................................................................. 12
Prédire la production de chaque secteur végétal pour s'investir dans le meilleur........................... 12
Conclusion ......................................................................................................................................... 13
La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017..................................... 14
Introduction....................................................................................................................................... 14
Degré d’engagement......................................................................................................................... 14
Description des spécialisations du pays............................................................................................ 14
Analyse factorielle et Kmeans ....................................................................................................... 15
CAH................................................................................................................................................ 16
Prédiction de la spécialisation du pays ............................................................................................. 17
Prédiction du rendement par produit............................................................................................... 18
Conclusion ......................................................................................................................................... 20
PROJET DATA MINING 2
Table des figures
Figure 1:Logo de l’Open Data Canada..................................................................................................... 4
Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE)............ 4
Figure 3: Variables vs variables. .............................................................................................................. 5
Figure 4: Individus vs individus................................................................................................................ 6
Figure 5:Procéder avec un modèle de régression multiple .................................................................... 7
Figure 6: Réseau de neurones................................................................................................................. 8
Figure 7: Step Aic pour la selection des variables ................................................................................. 10
Figure 8: Scatter plot............................................................................................................................. 11
Figure 9: Modèle linéaire du SVM pour la régression........................................................................... 11
Figure 10: Régression linéaire multiple................................................................................................. 13
Figure 11: PCA_Individus....................................................................................................................... 15
Figure 12: PCA_Variables ...................................................................................................................... 15
Figure 13: PCA_Individus_cos² .............................................................................................................. 16
Figure 14: Dendrogramme de la variable « spécialisation »................................................................. 16
Figure 15: Arbre de décision ................................................................................................................. 17
Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial ..................................... 17
Figure 17: Les résidus vs Les valeurs ajustées....................................................................................... 18
Figure 18: Etude de la normalité........................................................................................................... 18
Figure 19: Centrage et Réduction.......................................................................................................... 19
Figure 20: L'influence des résidus ......................................................................................................... 19
PROJET DATA MINING 3
Présentation du sujet
Introduction
Notre sujet de production agroalimentaire concerne deux grands axes : la production animale
et végétale.
La production animale est à la fois la production laitière, production de bovins de boucherie et
la production porcine. Alors ce secteur de production dépend fortement des animaux de rente.
Les animaux de rente varient selon les pays aussi selon les régions dans un même pays. Ces
différentes espèces jouent un rôle de premier plan dans la production alimentaire et la génération de
revenus.
Nous ne pouvons pas parler d’une production animale sans parler d’une production végétale.
La production végétale est tributaire de la disponibilité de terres arables et varie notamment
en fonction des rendements, de l’incertitude macro-économique et des modes de consommation. Elle
a un fort impact sur les prix des produits agricoles. L’importance de la production végétale est liée aux
surfaces récoltées, à la production par hectare (rendement) et aux quantités produites. Le rendement
des cultures est la quantité de produits végétaux obtenue par unité de surface récoltée. Dans la plupart
des cas, les données sur le rendement ne sont pas enregistrées, mais sont obtenues en divisant un
tonnage par une superficie récoltée. Le rendement réel, sur l'exploitation, est fonction de plusieurs
facteurs tels que le potentiel génétique de la variété ; le rayonnement solaire, l'eau et les éléments
nutritifs absorbés par les plantes ; et la présence d'adventices et d'ennemis des cultures. Cet indicateur
est calculé pour le blé, le maïs, le riz et le soja. Il est exprimé en tonnes par hectare, en milliers
d’hectares et en milliers de tonnes. (OCDE, s.d.)
Problématiques
Dans ce module nous somme mené à trouver des données réelles concernant notre sujet «
Production Animale et Agroalimentaire », afin de creuser dans ce secteur et dégager quelques
problématiques qui peuvent révéler des aspects cachés de ses données.
Nous avons donc choisi le Canada comme cible d’étude, et nous nous somme posé les
problématiques suivantes :
Analyse prédictive sur la contribution du secteur agricole sur le PIB de l’année 2017.
Prédire la recette monétaire issue du secteur agricole du Canada.
La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017.
PROJET DATA MINING 4
Source de données
Dans la première problématique nous avons utilisé une première source de données qui est
l’Open Data Canada.
Figure 1:Logo de l’Open Data Canada
Dans la deuxième problématique nous avons utilisé une deuxième source de données qui est
l'Organisation de Coopération et de Développement Économiques (OCDE).
Leur mission est de promouvoir les politiques qui amélioreront le bien-être économique et
social partout dans le monde.
L’OCDE offre aux gouvernements un forum où ils peuvent conjuguer leurs efforts, partager
leurs expériences et chercher des solutions à des problèmes communs. Nous travaillons avec les
gouvernements afin de comprendre quel est le moteur du changement économique, social et
environnemental. Nous mesurons la productivité et les flux mondiaux d’échanges et d’investissement.
Nous analysons et comparons les données afin de prédire les tendances à venir. Nous établissons des
normes internationales dans un grand nombre de domaines, de l'agriculture à la fiscalité en passant
par la sécurité des produits chimiques. (OCDE, s.d.)
Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE).
Conclusion
Dans ce chapitre nous avons introduit notre sujet ainsi que les problématiques que nous allons
travailler là-dessus, aussi nous avons présenté notre source de données.
PROJET DATA MINING 5
Analyse prédictive sur la contribution du secteur agricole sur le PIB de
l'année 2017
Introduction
La série statistique sur laquelle nous allons effectuer notre analyse Regroupe des données
relatives à l’agriculture (l’industrie animale et végétale), l’aquaculture, la transformation des aliments,
des boissons et du tabac, des services alimentaires, ainsi que des données sur l’importation et
l’exportation dans le secteur de l’agriculture canadienne la contribution du secteur dans
l’employabilité et enfin les recettes issues des productions végétales et animales en dollars canadiens.
Analyse Factorielle et Kmeans
Figure 3: Variables vs variables.
PROJET DATA MINING 6
Figure 4: Individus vs individus
Interprétation
On peut interpréter ces deux représentation (cercle de corrélation et position des individus sur
le plan factorielles) comme suit :
L’individu (1) correspond à l'année 2012 on voit très bien que la production en produit laitiers
à savoir (du beurre, de la crème, certain type de fromage) ainsi que la production caprine était à son
apogée en2012, positivement corrèles, tandis que la production en fromage CHEDDAR et en fromage
a pate fraiche ou en mozzarella n'ont pas marqué une production notable en 2012
Pour l'année 2 qui est 2013 on a la production du verrat et du poulet à griller sont en top
(corrélation positive avec2013)
En 2015 la production en yaourt et en porc a marqué la meilleure production.
On utilise Eigenvalue pour dégagé les composantes principales qui ont participer le mieux à
mieux représenter l’information.
Interprétation
D’après le tableau de l'Eigenvalue on peut limiter notre étude sur seulement les 3 premières
composantes principales puisque le pourcentage cumulatif atteint 100% de sa valeur en 3.
Ceci est encore visualiser à travers le diagramme en barre suivant (commande suivante)
l'importance des Composante principale.
PROJET DATA MINING 7
Qualité de présentation des variables
Par exemple : La variable Verrats est ben présentes par les composants p : Dim1 et Dim2
(0.49+0.44).
Aussi a La variable fromage a pate fraiche elle est beaucoup bien représentée sur les deux
composants Dim1 et Dim2 tant que la variable Fromage fin elle est bien représentée par les deux dim
1 et 3.
Prédire la contribution des secteurs agricoles dans le PIB
Figure 5:Procéder avec un modèle de régression multiple
Interprétation
Les années 2008 et 2014 contribuent le plus en apport d’information.
PROJET DATA MINING 8
Résultat de prédiction
Pour interpréter le résultat nous allons calculer le mean squared error (MSE) pour mesurer à
quel point les données sont loin des valeurs réelles à comparer plus tard avec celle du réseau de
neurone.
Maintenant nous allons procéder au réseau de neurone en utilisant la library neuralnet.
Après préparation des données le plot nous a donné.
Figure 6: Réseau de neurones
Généralement une seule couche cachée fera l'affaire mais ans ce cas nous allons choisir (5,3)
en vue d'améliorer le pouvoir prédictive.
Comme on a fait avec l’autre modèle nous allons calculer le mean squared error (MSE) pour
mesurer à quel point les données sont loin des valeurs réelles.
PROJET DATA MINING 9
En comparant les MSE des deux modèles on trouve qu’avec le model linéaire nous avant un
meilleur résultat.
Nous pouvant constater la comparaison entre les deux model à travers la représentation
suivante :
Apparemment, ML fait un meilleur travail que le modèle le neurone net à la prévision de Pib à
travers la comparaison des mse ainsi qu’avec la comparaison entre les valeur réelle et valeur prédite
pour chaque modèle.
Prédire la recette monétaire issue du secteur agricole du Canada
Nous effectuons SLR (Simple Linear Regression) et SVR (Support Vector Regression) sur le
même ensemble de données et faisons une comparaison.
Commençant la prédiction en utilisant la régression linéaire simple entre deux variables puis
multiples (voir code) :
PROJET DATA MINING 10
Figure 7: Step Aic pour la selection des variables
Résultat de prédiction avec la régression multiple à comparer plus tard avec le résultat de celui
de la SVR.
PROJET DATA MINING 11
Avec le scatter plot on peut voir la différence entre les valeurs réelles et celle prédite :
Figure 8: Scatter plot
Régression avec SVM
Comparaison du résultat de prédiction du modèle linéaire et du model SVM pour la régression :
Figure 9: Modèle linéaire du SVM pour la régression
Le modèle linéaire semble avoir une meilleure prédiction on peut s’assurer de ça en calculant
le taux d’erreur des deux modèles avec le MSE.
PROJET DATA MINING 12
Le calcule de MSE confirme la représentation graphique.
Interprétations générales
En appliquant step AIC sur le modèle multiple on a trouvé que les variables X2006-
X2009etX2010 ont le plus d'apport d'information en effectuant un modèle linéaire multiples avec ces
derniers et en l'exposant contre le modèle linéaire simple on voit bien la différence dans le deuxième
Scatter plot (exposition de résultat de prédiction SVR et SLR) en comparant les MSE (mean squared
error).
On trouvera que la valeur MSE du modèle SVR est beaucoup plus grand que celui de LRM donc
le résultat de prédiction de LRM est mieux que SVR.
Prédire la production de chaque secteur végétal pour s'investir dans le meilleur
En utilisant la régression linéaire multiple :
Les résultats de la prédiction.
PROJET DATA MINING 13
Figure 10: Régression linéaire multiple
La représentation graphique de la prédiction de la production des secteurs comme l’huile –le
céréale-et les fruits rouges nous permet de conclure que la production de céréale est la plus proche
des valeurs réelles donc c’est la meilleure production à s’y investir puisque c’est la plus rentable.
Conclusion
Dans cette section nous avons été mener à déterminer la contribution du secteur agricole sur
le PIB de l'année 2017.
PROJET DATA MINING 14
La prédiction du secteur le plus rentable pour s'y investir pour l'année
2017
Introduction
Avant de parler d’un secteur qui soit plus rentable, il faut tout d’abord déterminer quels sont
les secteurs appropriés pour le pays en question.
Pour cette raison nous avons cherché les secteurs de spécialisation du Canada.
Degré d’engagement
Un pays est dit engagé dans une activité dès lors que sa production excède le montant de sa
consommation ; son système productif est donc spécialisé dans cette activité et son commerce
extérieur est excédentaire. Le degré d’engagement se mesure donc simplement par :
Degré d’engagement = Production / Production – Exportations + Importations
Un degré d’engagement significativement supérieur à 1 est considéré comme exprimant la
spécialisation du pays dans l’activité étudiée, comme la manifestation de l’existence d’un avantage
comparatif pour cette activité. Inversement, un degré d’engagement significativement inférieur à 1
s’interprète comme la manifestation d’une contre-spécialisation, d’un désavantage comparatif.
(POUQUET, SEPTEMBRE 2000)
Nous avons donc procédé à calculer ce degré d’engagement pour déterminer les
spécialisations du pays, puisque nous ne pourrons pas s’investir dans un secteur qui n’est pas propre
au pays en question.
Description des spécialisations du pays
Pour déterminer la spécialisation du pays nous avons créé une nouvelle variable qualitative «
spécialisation ». Nous lui avons affecté deux modalité (oui : pour dire que c’est une spécialisation du
pays, et non : pour dire que c’est une contre spécialisation). Ces deux modalités sont affectées à partir
d’un test que nous avons effectué sur le degré d’engagement.
PROJET DATA MINING 15
Analyse factorielle et Kmeans
Nous avons décrit la distribution des produits par rapport aux modalités de la spécialisation :
Figure 11: PCA_Individus
Figure 12: PCA_Variables
PROJET DATA MINING 16
Figure 13: PCA_Individus_cos²
Interprétation
Nous pouvons dire que certaines observations qui ont la spécialisation « oui », s’approchent
des observations de spécialisation « non ». Nous pouvons constater donc qu’ils partagent un nombre
important de caractéristique.
Mais il existe quelques observations qui sont loin, et qui ont un comportement différent.
CAH
Figure 14: Dendrogramme de la variable « spécialisation »
Interprétation
Ce dendrogramme n’est pas vraiment significatif.
PROJET DATA MINING 17
Prédiction de la spécialisation du pays
Figure 15: Arbre de décision
Interprétation
Nous ne pouvons pas retenir grand-chose de ce modèle.
Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial
Interprétation
Le modèle knn est le modèle le plus performant par rapport au deux autres modèles. C’est le
premier modèle qui atteint la stabilisation, après lui on trouve modèle svm linéaire puis dans la
dernière place le modèle svm polynomial.
PROJET DATA MINING 18
Prédiction du rendement par produit
Pour prédire le rendement du pas nous avons choisi de travailler que sur les spécialisations
du pays, et nous avons procédé pour résoudre cette problématique au modèle linéaire réduit.
Figure 17: Les résidus vs Les valeurs ajustées
Figure 18: Etude de la normalité
PROJET DATA MINING 19
Figure 19: Centrage et Réduction
Figure 20: L'influence des résidus
canada_test_specialisation$Produit real_values pred_reduit
Blé 3.02 3.0038063384801
Autres céréales secondaires 3.263238031 3.3643095713517
Drêches sèches de distillerie 0 0.0457326756505716
Soja 2.539 2.90494646048398
Autre Oléagineux 1.970616659 2.02644728669704
Tourteaux protéiques 0 -0.0709660009061818
PROJET DATA MINING 20
Huiles végétales 0 -0.0625381929104795
Sirop de maïs à haute teneur en
fructose 0 -0.0180165195156542
Viande bovine (epc) 0 -0.048279378615539
Viande porcine (epc) 0 -0.0318640239268071
Lait écrémé en poudre (pp) 0 0.00638104534758935
Poissons 0 -0.0021179884417174
RACINES et TUBERCULES 6.103089245 5.87225559077362
Interprétation
Ce modèle nous permet de dire que le Canada doit s’investir en 2017 dans les secteurs de
productions des produits suivants : Blé, Autres céréales secondaires, Soja, Autre Oléagineux et les
RACINES et TUBERCULES.
Conclusion
Dans cette section nous avons été mené à déterminer les secteurs les plus rentables afin de
s’y investir dans l’année prochaine.

Weitere ähnliche Inhalte

Was ist angesagt?

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian Lilia Sfaxi
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi AfnouchAhmed
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 

Was ist angesagt? (20)

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Bi
BiBi
Bi
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 

Ähnlich wie Rapport data-mining

Guide d’étude d'impacts
Guide d’étude d'impactsGuide d’étude d'impacts
Guide d’étude d'impactssmemanager
 
Guide de mise en conformité
Guide de mise en conformitéGuide de mise en conformité
Guide de mise en conformitésmemanager
 
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...nuntiis
 
Le Big data à Bruxelles aujourd'hui. Et demain ?
Le Big data à Bruxelles aujourd'hui. Et demain ? Le Big data à Bruxelles aujourd'hui. Et demain ?
Le Big data à Bruxelles aujourd'hui. Et demain ? Christina Galouzis
 
Chiffres clés du climat France et Monde Édition 2013
Chiffres clés du climat France et Monde Édition 2013Chiffres clés du climat France et Monde Édition 2013
Chiffres clés du climat France et Monde Édition 2013GIP GERRI
 
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...Association Maladies Foie
 
Déterminant de la consommation d'énergie des ménages en France
Déterminant de la consommation d'énergie des ménages en FranceDéterminant de la consommation d'énergie des ménages en France
Déterminant de la consommation d'énergie des ménages en FranceYvesJocelinKASSI
 
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...Ministère de l'Économie et des Finances
 
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...Ministère de l'Environnement
 
Living Lab e-Inclusion - Rapport de pré-étude
Living Lab e-Inclusion - Rapport de pré-étudeLiving Lab e-Inclusion - Rapport de pré-étude
Living Lab e-Inclusion - Rapport de pré-étudePatrick Genoud
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleAref Jdey
 
Analyse des politiques de gratuité et étude du cout de traitement du paludism...
Analyse des politiques de gratuité et étude du cout de traitement du paludism...Analyse des politiques de gratuité et étude du cout de traitement du paludism...
Analyse des politiques de gratuité et étude du cout de traitement du paludism...HFG Project
 
Comment bien utiliser Linkedin
Comment bien utiliser LinkedinComment bien utiliser Linkedin
Comment bien utiliser LinkedinMarketingZ
 
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...Marine ALLEON
 
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
La Puissance Du Web Communautaire,  par Eric Lamidieu 2008La Puissance Du Web Communautaire,  par Eric Lamidieu 2008
La Puissance Du Web Communautaire, par Eric Lamidieu 2008Eric LAMIDIEU
 
Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Digimind
 
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...Silicon Village
 

Ähnlich wie Rapport data-mining (20)

Projet-RDÉE
Projet-RDÉEProjet-RDÉE
Projet-RDÉE
 
Guide d’étude d'impacts
Guide d’étude d'impactsGuide d’étude d'impacts
Guide d’étude d'impacts
 
Guide de mise en conformité
Guide de mise en conformitéGuide de mise en conformité
Guide de mise en conformité
 
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...
En association avec le CEFRIO et HEC Montréal, le CIGREF délivre les résultat...
 
Le Big data à Bruxelles aujourd'hui. Et demain ?
Le Big data à Bruxelles aujourd'hui. Et demain ? Le Big data à Bruxelles aujourd'hui. Et demain ?
Le Big data à Bruxelles aujourd'hui. Et demain ?
 
Chiffres clés du climat France et Monde Édition 2013
Chiffres clés du climat France et Monde Édition 2013Chiffres clés du climat France et Monde Édition 2013
Chiffres clés du climat France et Monde Édition 2013
 
Iter - Compte rendu de veille stratégique février à juillet 2011
Iter - Compte rendu de veille stratégique février à juillet 2011Iter - Compte rendu de veille stratégique février à juillet 2011
Iter - Compte rendu de veille stratégique février à juillet 2011
 
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...
Rapport de mission “L’enfant et l’adolescent : un enjeu de société, une prior...
 
Déterminant de la consommation d'énergie des ménages en France
Déterminant de la consommation d'énergie des ménages en FranceDéterminant de la consommation d'énergie des ménages en France
Déterminant de la consommation d'énergie des ménages en France
 
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
 
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...
AGAP rapport technique intermédiaire sur la Protection de la Biodiversité et ...
 
Living Lab e-Inclusion - Rapport de pré-étude
Living Lab e-Inclusion - Rapport de pré-étudeLiving Lab e-Inclusion - Rapport de pré-étude
Living Lab e-Inclusion - Rapport de pré-étude
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veille
 
Analyse des politiques de gratuité et étude du cout de traitement du paludism...
Analyse des politiques de gratuité et étude du cout de traitement du paludism...Analyse des politiques de gratuité et étude du cout de traitement du paludism...
Analyse des politiques de gratuité et étude du cout de traitement du paludism...
 
Comment bien utiliser Linkedin
Comment bien utiliser LinkedinComment bien utiliser Linkedin
Comment bien utiliser Linkedin
 
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...
Analyse de la FoodTech et des spécificités des stratégies des entreprises sur...
 
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
La Puissance Du Web Communautaire,  par Eric Lamidieu 2008La Puissance Du Web Communautaire,  par Eric Lamidieu 2008
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
 
Economie Verte
Economie VerteEconomie Verte
Economie Verte
 
Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008
 
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
 

Rapport data-mining

  • 1. PROJET DATA MINING 1 Table des matières Présentation du sujet .............................................................................................................................. 3 Introduction......................................................................................................................................... 3 Problématiques ................................................................................................................................... 3 Source de données.............................................................................................................................. 4 Conclusion ........................................................................................................................................... 4 Analyse prédictive sur la contribution du secteur agricole sur le PIB de l'année 2017 .......................... 5 Introduction......................................................................................................................................... 5 Analyse Factorielle et Kmeans............................................................................................................. 5 Qualité de présentation des variables ................................................................................................ 7 Prédire la contribution des secteurs agricoles dans le PIB.................................................................. 7 Résultat de prédiction......................................................................................................................... 8 Prédire la recette monétaire issue du secteur agricole du Canada .................................................... 9 Régression avec SVM......................................................................................................................... 11 Interprétations générales.................................................................................................................. 12 Prédire la production de chaque secteur végétal pour s'investir dans le meilleur........................... 12 Conclusion ......................................................................................................................................... 13 La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017..................................... 14 Introduction....................................................................................................................................... 14 Degré d’engagement......................................................................................................................... 14 Description des spécialisations du pays............................................................................................ 14 Analyse factorielle et Kmeans ....................................................................................................... 15 CAH................................................................................................................................................ 16 Prédiction de la spécialisation du pays ............................................................................................. 17 Prédiction du rendement par produit............................................................................................... 18 Conclusion ......................................................................................................................................... 20
  • 2. PROJET DATA MINING 2 Table des figures Figure 1:Logo de l’Open Data Canada..................................................................................................... 4 Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE)............ 4 Figure 3: Variables vs variables. .............................................................................................................. 5 Figure 4: Individus vs individus................................................................................................................ 6 Figure 5:Procéder avec un modèle de régression multiple .................................................................... 7 Figure 6: Réseau de neurones................................................................................................................. 8 Figure 7: Step Aic pour la selection des variables ................................................................................. 10 Figure 8: Scatter plot............................................................................................................................. 11 Figure 9: Modèle linéaire du SVM pour la régression........................................................................... 11 Figure 10: Régression linéaire multiple................................................................................................. 13 Figure 11: PCA_Individus....................................................................................................................... 15 Figure 12: PCA_Variables ...................................................................................................................... 15 Figure 13: PCA_Individus_cos² .............................................................................................................. 16 Figure 14: Dendrogramme de la variable « spécialisation »................................................................. 16 Figure 15: Arbre de décision ................................................................................................................. 17 Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial ..................................... 17 Figure 17: Les résidus vs Les valeurs ajustées....................................................................................... 18 Figure 18: Etude de la normalité........................................................................................................... 18 Figure 19: Centrage et Réduction.......................................................................................................... 19 Figure 20: L'influence des résidus ......................................................................................................... 19
  • 3. PROJET DATA MINING 3 Présentation du sujet Introduction Notre sujet de production agroalimentaire concerne deux grands axes : la production animale et végétale. La production animale est à la fois la production laitière, production de bovins de boucherie et la production porcine. Alors ce secteur de production dépend fortement des animaux de rente. Les animaux de rente varient selon les pays aussi selon les régions dans un même pays. Ces différentes espèces jouent un rôle de premier plan dans la production alimentaire et la génération de revenus. Nous ne pouvons pas parler d’une production animale sans parler d’une production végétale. La production végétale est tributaire de la disponibilité de terres arables et varie notamment en fonction des rendements, de l’incertitude macro-économique et des modes de consommation. Elle a un fort impact sur les prix des produits agricoles. L’importance de la production végétale est liée aux surfaces récoltées, à la production par hectare (rendement) et aux quantités produites. Le rendement des cultures est la quantité de produits végétaux obtenue par unité de surface récoltée. Dans la plupart des cas, les données sur le rendement ne sont pas enregistrées, mais sont obtenues en divisant un tonnage par une superficie récoltée. Le rendement réel, sur l'exploitation, est fonction de plusieurs facteurs tels que le potentiel génétique de la variété ; le rayonnement solaire, l'eau et les éléments nutritifs absorbés par les plantes ; et la présence d'adventices et d'ennemis des cultures. Cet indicateur est calculé pour le blé, le maïs, le riz et le soja. Il est exprimé en tonnes par hectare, en milliers d’hectares et en milliers de tonnes. (OCDE, s.d.) Problématiques Dans ce module nous somme mené à trouver des données réelles concernant notre sujet « Production Animale et Agroalimentaire », afin de creuser dans ce secteur et dégager quelques problématiques qui peuvent révéler des aspects cachés de ses données. Nous avons donc choisi le Canada comme cible d’étude, et nous nous somme posé les problématiques suivantes : Analyse prédictive sur la contribution du secteur agricole sur le PIB de l’année 2017. Prédire la recette monétaire issue du secteur agricole du Canada. La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017.
  • 4. PROJET DATA MINING 4 Source de données Dans la première problématique nous avons utilisé une première source de données qui est l’Open Data Canada. Figure 1:Logo de l’Open Data Canada Dans la deuxième problématique nous avons utilisé une deuxième source de données qui est l'Organisation de Coopération et de Développement Économiques (OCDE). Leur mission est de promouvoir les politiques qui amélioreront le bien-être économique et social partout dans le monde. L’OCDE offre aux gouvernements un forum où ils peuvent conjuguer leurs efforts, partager leurs expériences et chercher des solutions à des problèmes communs. Nous travaillons avec les gouvernements afin de comprendre quel est le moteur du changement économique, social et environnemental. Nous mesurons la productivité et les flux mondiaux d’échanges et d’investissement. Nous analysons et comparons les données afin de prédire les tendances à venir. Nous établissons des normes internationales dans un grand nombre de domaines, de l'agriculture à la fiscalité en passant par la sécurité des produits chimiques. (OCDE, s.d.) Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE). Conclusion Dans ce chapitre nous avons introduit notre sujet ainsi que les problématiques que nous allons travailler là-dessus, aussi nous avons présenté notre source de données.
  • 5. PROJET DATA MINING 5 Analyse prédictive sur la contribution du secteur agricole sur le PIB de l'année 2017 Introduction La série statistique sur laquelle nous allons effectuer notre analyse Regroupe des données relatives à l’agriculture (l’industrie animale et végétale), l’aquaculture, la transformation des aliments, des boissons et du tabac, des services alimentaires, ainsi que des données sur l’importation et l’exportation dans le secteur de l’agriculture canadienne la contribution du secteur dans l’employabilité et enfin les recettes issues des productions végétales et animales en dollars canadiens. Analyse Factorielle et Kmeans Figure 3: Variables vs variables.
  • 6. PROJET DATA MINING 6 Figure 4: Individus vs individus Interprétation On peut interpréter ces deux représentation (cercle de corrélation et position des individus sur le plan factorielles) comme suit : L’individu (1) correspond à l'année 2012 on voit très bien que la production en produit laitiers à savoir (du beurre, de la crème, certain type de fromage) ainsi que la production caprine était à son apogée en2012, positivement corrèles, tandis que la production en fromage CHEDDAR et en fromage a pate fraiche ou en mozzarella n'ont pas marqué une production notable en 2012 Pour l'année 2 qui est 2013 on a la production du verrat et du poulet à griller sont en top (corrélation positive avec2013) En 2015 la production en yaourt et en porc a marqué la meilleure production. On utilise Eigenvalue pour dégagé les composantes principales qui ont participer le mieux à mieux représenter l’information. Interprétation D’après le tableau de l'Eigenvalue on peut limiter notre étude sur seulement les 3 premières composantes principales puisque le pourcentage cumulatif atteint 100% de sa valeur en 3. Ceci est encore visualiser à travers le diagramme en barre suivant (commande suivante) l'importance des Composante principale.
  • 7. PROJET DATA MINING 7 Qualité de présentation des variables Par exemple : La variable Verrats est ben présentes par les composants p : Dim1 et Dim2 (0.49+0.44). Aussi a La variable fromage a pate fraiche elle est beaucoup bien représentée sur les deux composants Dim1 et Dim2 tant que la variable Fromage fin elle est bien représentée par les deux dim 1 et 3. Prédire la contribution des secteurs agricoles dans le PIB Figure 5:Procéder avec un modèle de régression multiple Interprétation Les années 2008 et 2014 contribuent le plus en apport d’information.
  • 8. PROJET DATA MINING 8 Résultat de prédiction Pour interpréter le résultat nous allons calculer le mean squared error (MSE) pour mesurer à quel point les données sont loin des valeurs réelles à comparer plus tard avec celle du réseau de neurone. Maintenant nous allons procéder au réseau de neurone en utilisant la library neuralnet. Après préparation des données le plot nous a donné. Figure 6: Réseau de neurones Généralement une seule couche cachée fera l'affaire mais ans ce cas nous allons choisir (5,3) en vue d'améliorer le pouvoir prédictive. Comme on a fait avec l’autre modèle nous allons calculer le mean squared error (MSE) pour mesurer à quel point les données sont loin des valeurs réelles.
  • 9. PROJET DATA MINING 9 En comparant les MSE des deux modèles on trouve qu’avec le model linéaire nous avant un meilleur résultat. Nous pouvant constater la comparaison entre les deux model à travers la représentation suivante : Apparemment, ML fait un meilleur travail que le modèle le neurone net à la prévision de Pib à travers la comparaison des mse ainsi qu’avec la comparaison entre les valeur réelle et valeur prédite pour chaque modèle. Prédire la recette monétaire issue du secteur agricole du Canada Nous effectuons SLR (Simple Linear Regression) et SVR (Support Vector Regression) sur le même ensemble de données et faisons une comparaison. Commençant la prédiction en utilisant la régression linéaire simple entre deux variables puis multiples (voir code) :
  • 10. PROJET DATA MINING 10 Figure 7: Step Aic pour la selection des variables Résultat de prédiction avec la régression multiple à comparer plus tard avec le résultat de celui de la SVR.
  • 11. PROJET DATA MINING 11 Avec le scatter plot on peut voir la différence entre les valeurs réelles et celle prédite : Figure 8: Scatter plot Régression avec SVM Comparaison du résultat de prédiction du modèle linéaire et du model SVM pour la régression : Figure 9: Modèle linéaire du SVM pour la régression Le modèle linéaire semble avoir une meilleure prédiction on peut s’assurer de ça en calculant le taux d’erreur des deux modèles avec le MSE.
  • 12. PROJET DATA MINING 12 Le calcule de MSE confirme la représentation graphique. Interprétations générales En appliquant step AIC sur le modèle multiple on a trouvé que les variables X2006- X2009etX2010 ont le plus d'apport d'information en effectuant un modèle linéaire multiples avec ces derniers et en l'exposant contre le modèle linéaire simple on voit bien la différence dans le deuxième Scatter plot (exposition de résultat de prédiction SVR et SLR) en comparant les MSE (mean squared error). On trouvera que la valeur MSE du modèle SVR est beaucoup plus grand que celui de LRM donc le résultat de prédiction de LRM est mieux que SVR. Prédire la production de chaque secteur végétal pour s'investir dans le meilleur En utilisant la régression linéaire multiple : Les résultats de la prédiction.
  • 13. PROJET DATA MINING 13 Figure 10: Régression linéaire multiple La représentation graphique de la prédiction de la production des secteurs comme l’huile –le céréale-et les fruits rouges nous permet de conclure que la production de céréale est la plus proche des valeurs réelles donc c’est la meilleure production à s’y investir puisque c’est la plus rentable. Conclusion Dans cette section nous avons été mener à déterminer la contribution du secteur agricole sur le PIB de l'année 2017.
  • 14. PROJET DATA MINING 14 La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017 Introduction Avant de parler d’un secteur qui soit plus rentable, il faut tout d’abord déterminer quels sont les secteurs appropriés pour le pays en question. Pour cette raison nous avons cherché les secteurs de spécialisation du Canada. Degré d’engagement Un pays est dit engagé dans une activité dès lors que sa production excède le montant de sa consommation ; son système productif est donc spécialisé dans cette activité et son commerce extérieur est excédentaire. Le degré d’engagement se mesure donc simplement par : Degré d’engagement = Production / Production – Exportations + Importations Un degré d’engagement significativement supérieur à 1 est considéré comme exprimant la spécialisation du pays dans l’activité étudiée, comme la manifestation de l’existence d’un avantage comparatif pour cette activité. Inversement, un degré d’engagement significativement inférieur à 1 s’interprète comme la manifestation d’une contre-spécialisation, d’un désavantage comparatif. (POUQUET, SEPTEMBRE 2000) Nous avons donc procédé à calculer ce degré d’engagement pour déterminer les spécialisations du pays, puisque nous ne pourrons pas s’investir dans un secteur qui n’est pas propre au pays en question. Description des spécialisations du pays Pour déterminer la spécialisation du pays nous avons créé une nouvelle variable qualitative « spécialisation ». Nous lui avons affecté deux modalité (oui : pour dire que c’est une spécialisation du pays, et non : pour dire que c’est une contre spécialisation). Ces deux modalités sont affectées à partir d’un test que nous avons effectué sur le degré d’engagement.
  • 15. PROJET DATA MINING 15 Analyse factorielle et Kmeans Nous avons décrit la distribution des produits par rapport aux modalités de la spécialisation : Figure 11: PCA_Individus Figure 12: PCA_Variables
  • 16. PROJET DATA MINING 16 Figure 13: PCA_Individus_cos² Interprétation Nous pouvons dire que certaines observations qui ont la spécialisation « oui », s’approchent des observations de spécialisation « non ». Nous pouvons constater donc qu’ils partagent un nombre important de caractéristique. Mais il existe quelques observations qui sont loin, et qui ont un comportement différent. CAH Figure 14: Dendrogramme de la variable « spécialisation » Interprétation Ce dendrogramme n’est pas vraiment significatif.
  • 17. PROJET DATA MINING 17 Prédiction de la spécialisation du pays Figure 15: Arbre de décision Interprétation Nous ne pouvons pas retenir grand-chose de ce modèle. Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial Interprétation Le modèle knn est le modèle le plus performant par rapport au deux autres modèles. C’est le premier modèle qui atteint la stabilisation, après lui on trouve modèle svm linéaire puis dans la dernière place le modèle svm polynomial.
  • 18. PROJET DATA MINING 18 Prédiction du rendement par produit Pour prédire le rendement du pas nous avons choisi de travailler que sur les spécialisations du pays, et nous avons procédé pour résoudre cette problématique au modèle linéaire réduit. Figure 17: Les résidus vs Les valeurs ajustées Figure 18: Etude de la normalité
  • 19. PROJET DATA MINING 19 Figure 19: Centrage et Réduction Figure 20: L'influence des résidus canada_test_specialisation$Produit real_values pred_reduit Blé 3.02 3.0038063384801 Autres céréales secondaires 3.263238031 3.3643095713517 Drêches sèches de distillerie 0 0.0457326756505716 Soja 2.539 2.90494646048398 Autre Oléagineux 1.970616659 2.02644728669704 Tourteaux protéiques 0 -0.0709660009061818
  • 20. PROJET DATA MINING 20 Huiles végétales 0 -0.0625381929104795 Sirop de maïs à haute teneur en fructose 0 -0.0180165195156542 Viande bovine (epc) 0 -0.048279378615539 Viande porcine (epc) 0 -0.0318640239268071 Lait écrémé en poudre (pp) 0 0.00638104534758935 Poissons 0 -0.0021179884417174 RACINES et TUBERCULES 6.103089245 5.87225559077362 Interprétation Ce modèle nous permet de dire que le Canada doit s’investir en 2017 dans les secteurs de productions des produits suivants : Blé, Autres céréales secondaires, Soja, Autre Oléagineux et les RACINES et TUBERCULES. Conclusion Dans cette section nous avons été mené à déterminer les secteurs les plus rentables afin de s’y investir dans l’année prochaine.