Synthèse du Diagnostic Territorial Stratégique - Préparation des programmes 2...
Rapport data-mining
1. PROJET DATA MINING 1
Table des matières
Présentation du sujet .............................................................................................................................. 3
Introduction......................................................................................................................................... 3
Problématiques ................................................................................................................................... 3
Source de données.............................................................................................................................. 4
Conclusion ........................................................................................................................................... 4
Analyse prédictive sur la contribution du secteur agricole sur le PIB de l'année 2017 .......................... 5
Introduction......................................................................................................................................... 5
Analyse Factorielle et Kmeans............................................................................................................. 5
Qualité de présentation des variables ................................................................................................ 7
Prédire la contribution des secteurs agricoles dans le PIB.................................................................. 7
Résultat de prédiction......................................................................................................................... 8
Prédire la recette monétaire issue du secteur agricole du Canada .................................................... 9
Régression avec SVM......................................................................................................................... 11
Interprétations générales.................................................................................................................. 12
Prédire la production de chaque secteur végétal pour s'investir dans le meilleur........................... 12
Conclusion ......................................................................................................................................... 13
La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017..................................... 14
Introduction....................................................................................................................................... 14
Degré d’engagement......................................................................................................................... 14
Description des spécialisations du pays............................................................................................ 14
Analyse factorielle et Kmeans ....................................................................................................... 15
CAH................................................................................................................................................ 16
Prédiction de la spécialisation du pays ............................................................................................. 17
Prédiction du rendement par produit............................................................................................... 18
Conclusion ......................................................................................................................................... 20
2. PROJET DATA MINING 2
Table des figures
Figure 1:Logo de l’Open Data Canada..................................................................................................... 4
Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE)............ 4
Figure 3: Variables vs variables. .............................................................................................................. 5
Figure 4: Individus vs individus................................................................................................................ 6
Figure 5:Procéder avec un modèle de régression multiple .................................................................... 7
Figure 6: Réseau de neurones................................................................................................................. 8
Figure 7: Step Aic pour la selection des variables ................................................................................. 10
Figure 8: Scatter plot............................................................................................................................. 11
Figure 9: Modèle linéaire du SVM pour la régression........................................................................... 11
Figure 10: Régression linéaire multiple................................................................................................. 13
Figure 11: PCA_Individus....................................................................................................................... 15
Figure 12: PCA_Variables ...................................................................................................................... 15
Figure 13: PCA_Individus_cos² .............................................................................................................. 16
Figure 14: Dendrogramme de la variable « spécialisation »................................................................. 16
Figure 15: Arbre de décision ................................................................................................................. 17
Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial ..................................... 17
Figure 17: Les résidus vs Les valeurs ajustées....................................................................................... 18
Figure 18: Etude de la normalité........................................................................................................... 18
Figure 19: Centrage et Réduction.......................................................................................................... 19
Figure 20: L'influence des résidus ......................................................................................................... 19
3. PROJET DATA MINING 3
Présentation du sujet
Introduction
Notre sujet de production agroalimentaire concerne deux grands axes : la production animale
et végétale.
La production animale est à la fois la production laitière, production de bovins de boucherie et
la production porcine. Alors ce secteur de production dépend fortement des animaux de rente.
Les animaux de rente varient selon les pays aussi selon les régions dans un même pays. Ces
différentes espèces jouent un rôle de premier plan dans la production alimentaire et la génération de
revenus.
Nous ne pouvons pas parler d’une production animale sans parler d’une production végétale.
La production végétale est tributaire de la disponibilité de terres arables et varie notamment
en fonction des rendements, de l’incertitude macro-économique et des modes de consommation. Elle
a un fort impact sur les prix des produits agricoles. L’importance de la production végétale est liée aux
surfaces récoltées, à la production par hectare (rendement) et aux quantités produites. Le rendement
des cultures est la quantité de produits végétaux obtenue par unité de surface récoltée. Dans la plupart
des cas, les données sur le rendement ne sont pas enregistrées, mais sont obtenues en divisant un
tonnage par une superficie récoltée. Le rendement réel, sur l'exploitation, est fonction de plusieurs
facteurs tels que le potentiel génétique de la variété ; le rayonnement solaire, l'eau et les éléments
nutritifs absorbés par les plantes ; et la présence d'adventices et d'ennemis des cultures. Cet indicateur
est calculé pour le blé, le maïs, le riz et le soja. Il est exprimé en tonnes par hectare, en milliers
d’hectares et en milliers de tonnes. (OCDE, s.d.)
Problématiques
Dans ce module nous somme mené à trouver des données réelles concernant notre sujet «
Production Animale et Agroalimentaire », afin de creuser dans ce secteur et dégager quelques
problématiques qui peuvent révéler des aspects cachés de ses données.
Nous avons donc choisi le Canada comme cible d’étude, et nous nous somme posé les
problématiques suivantes :
Analyse prédictive sur la contribution du secteur agricole sur le PIB de l’année 2017.
Prédire la recette monétaire issue du secteur agricole du Canada.
La prédiction du secteur le plus rentable pour s'y investir pour l'année 2017.
4. PROJET DATA MINING 4
Source de données
Dans la première problématique nous avons utilisé une première source de données qui est
l’Open Data Canada.
Figure 1:Logo de l’Open Data Canada
Dans la deuxième problématique nous avons utilisé une deuxième source de données qui est
l'Organisation de Coopération et de Développement Économiques (OCDE).
Leur mission est de promouvoir les politiques qui amélioreront le bien-être économique et
social partout dans le monde.
L’OCDE offre aux gouvernements un forum où ils peuvent conjuguer leurs efforts, partager
leurs expériences et chercher des solutions à des problèmes communs. Nous travaillons avec les
gouvernements afin de comprendre quel est le moteur du changement économique, social et
environnemental. Nous mesurons la productivité et les flux mondiaux d’échanges et d’investissement.
Nous analysons et comparons les données afin de prédire les tendances à venir. Nous établissons des
normes internationales dans un grand nombre de domaines, de l'agriculture à la fiscalité en passant
par la sécurité des produits chimiques. (OCDE, s.d.)
Figure 2: Logo de L'Organisation de Coopération et de Développement Économiques (OCDE).
Conclusion
Dans ce chapitre nous avons introduit notre sujet ainsi que les problématiques que nous allons
travailler là-dessus, aussi nous avons présenté notre source de données.
5. PROJET DATA MINING 5
Analyse prédictive sur la contribution du secteur agricole sur le PIB de
l'année 2017
Introduction
La série statistique sur laquelle nous allons effectuer notre analyse Regroupe des données
relatives à l’agriculture (l’industrie animale et végétale), l’aquaculture, la transformation des aliments,
des boissons et du tabac, des services alimentaires, ainsi que des données sur l’importation et
l’exportation dans le secteur de l’agriculture canadienne la contribution du secteur dans
l’employabilité et enfin les recettes issues des productions végétales et animales en dollars canadiens.
Analyse Factorielle et Kmeans
Figure 3: Variables vs variables.
6. PROJET DATA MINING 6
Figure 4: Individus vs individus
Interprétation
On peut interpréter ces deux représentation (cercle de corrélation et position des individus sur
le plan factorielles) comme suit :
L’individu (1) correspond à l'année 2012 on voit très bien que la production en produit laitiers
à savoir (du beurre, de la crème, certain type de fromage) ainsi que la production caprine était à son
apogée en2012, positivement corrèles, tandis que la production en fromage CHEDDAR et en fromage
a pate fraiche ou en mozzarella n'ont pas marqué une production notable en 2012
Pour l'année 2 qui est 2013 on a la production du verrat et du poulet à griller sont en top
(corrélation positive avec2013)
En 2015 la production en yaourt et en porc a marqué la meilleure production.
On utilise Eigenvalue pour dégagé les composantes principales qui ont participer le mieux à
mieux représenter l’information.
Interprétation
D’après le tableau de l'Eigenvalue on peut limiter notre étude sur seulement les 3 premières
composantes principales puisque le pourcentage cumulatif atteint 100% de sa valeur en 3.
Ceci est encore visualiser à travers le diagramme en barre suivant (commande suivante)
l'importance des Composante principale.
7. PROJET DATA MINING 7
Qualité de présentation des variables
Par exemple : La variable Verrats est ben présentes par les composants p : Dim1 et Dim2
(0.49+0.44).
Aussi a La variable fromage a pate fraiche elle est beaucoup bien représentée sur les deux
composants Dim1 et Dim2 tant que la variable Fromage fin elle est bien représentée par les deux dim
1 et 3.
Prédire la contribution des secteurs agricoles dans le PIB
Figure 5:Procéder avec un modèle de régression multiple
Interprétation
Les années 2008 et 2014 contribuent le plus en apport d’information.
8. PROJET DATA MINING 8
Résultat de prédiction
Pour interpréter le résultat nous allons calculer le mean squared error (MSE) pour mesurer à
quel point les données sont loin des valeurs réelles à comparer plus tard avec celle du réseau de
neurone.
Maintenant nous allons procéder au réseau de neurone en utilisant la library neuralnet.
Après préparation des données le plot nous a donné.
Figure 6: Réseau de neurones
Généralement une seule couche cachée fera l'affaire mais ans ce cas nous allons choisir (5,3)
en vue d'améliorer le pouvoir prédictive.
Comme on a fait avec l’autre modèle nous allons calculer le mean squared error (MSE) pour
mesurer à quel point les données sont loin des valeurs réelles.
9. PROJET DATA MINING 9
En comparant les MSE des deux modèles on trouve qu’avec le model linéaire nous avant un
meilleur résultat.
Nous pouvant constater la comparaison entre les deux model à travers la représentation
suivante :
Apparemment, ML fait un meilleur travail que le modèle le neurone net à la prévision de Pib à
travers la comparaison des mse ainsi qu’avec la comparaison entre les valeur réelle et valeur prédite
pour chaque modèle.
Prédire la recette monétaire issue du secteur agricole du Canada
Nous effectuons SLR (Simple Linear Regression) et SVR (Support Vector Regression) sur le
même ensemble de données et faisons une comparaison.
Commençant la prédiction en utilisant la régression linéaire simple entre deux variables puis
multiples (voir code) :
10. PROJET DATA MINING 10
Figure 7: Step Aic pour la selection des variables
Résultat de prédiction avec la régression multiple à comparer plus tard avec le résultat de celui
de la SVR.
11. PROJET DATA MINING 11
Avec le scatter plot on peut voir la différence entre les valeurs réelles et celle prédite :
Figure 8: Scatter plot
Régression avec SVM
Comparaison du résultat de prédiction du modèle linéaire et du model SVM pour la régression :
Figure 9: Modèle linéaire du SVM pour la régression
Le modèle linéaire semble avoir une meilleure prédiction on peut s’assurer de ça en calculant
le taux d’erreur des deux modèles avec le MSE.
12. PROJET DATA MINING 12
Le calcule de MSE confirme la représentation graphique.
Interprétations générales
En appliquant step AIC sur le modèle multiple on a trouvé que les variables X2006-
X2009etX2010 ont le plus d'apport d'information en effectuant un modèle linéaire multiples avec ces
derniers et en l'exposant contre le modèle linéaire simple on voit bien la différence dans le deuxième
Scatter plot (exposition de résultat de prédiction SVR et SLR) en comparant les MSE (mean squared
error).
On trouvera que la valeur MSE du modèle SVR est beaucoup plus grand que celui de LRM donc
le résultat de prédiction de LRM est mieux que SVR.
Prédire la production de chaque secteur végétal pour s'investir dans le meilleur
En utilisant la régression linéaire multiple :
Les résultats de la prédiction.
13. PROJET DATA MINING 13
Figure 10: Régression linéaire multiple
La représentation graphique de la prédiction de la production des secteurs comme l’huile –le
céréale-et les fruits rouges nous permet de conclure que la production de céréale est la plus proche
des valeurs réelles donc c’est la meilleure production à s’y investir puisque c’est la plus rentable.
Conclusion
Dans cette section nous avons été mener à déterminer la contribution du secteur agricole sur
le PIB de l'année 2017.
14. PROJET DATA MINING 14
La prédiction du secteur le plus rentable pour s'y investir pour l'année
2017
Introduction
Avant de parler d’un secteur qui soit plus rentable, il faut tout d’abord déterminer quels sont
les secteurs appropriés pour le pays en question.
Pour cette raison nous avons cherché les secteurs de spécialisation du Canada.
Degré d’engagement
Un pays est dit engagé dans une activité dès lors que sa production excède le montant de sa
consommation ; son système productif est donc spécialisé dans cette activité et son commerce
extérieur est excédentaire. Le degré d’engagement se mesure donc simplement par :
Degré d’engagement = Production / Production – Exportations + Importations
Un degré d’engagement significativement supérieur à 1 est considéré comme exprimant la
spécialisation du pays dans l’activité étudiée, comme la manifestation de l’existence d’un avantage
comparatif pour cette activité. Inversement, un degré d’engagement significativement inférieur à 1
s’interprète comme la manifestation d’une contre-spécialisation, d’un désavantage comparatif.
(POUQUET, SEPTEMBRE 2000)
Nous avons donc procédé à calculer ce degré d’engagement pour déterminer les
spécialisations du pays, puisque nous ne pourrons pas s’investir dans un secteur qui n’est pas propre
au pays en question.
Description des spécialisations du pays
Pour déterminer la spécialisation du pays nous avons créé une nouvelle variable qualitative «
spécialisation ». Nous lui avons affecté deux modalité (oui : pour dire que c’est une spécialisation du
pays, et non : pour dire que c’est une contre spécialisation). Ces deux modalités sont affectées à partir
d’un test que nous avons effectué sur le degré d’engagement.
15. PROJET DATA MINING 15
Analyse factorielle et Kmeans
Nous avons décrit la distribution des produits par rapport aux modalités de la spécialisation :
Figure 11: PCA_Individus
Figure 12: PCA_Variables
16. PROJET DATA MINING 16
Figure 13: PCA_Individus_cos²
Interprétation
Nous pouvons dire que certaines observations qui ont la spécialisation « oui », s’approchent
des observations de spécialisation « non ». Nous pouvons constater donc qu’ils partagent un nombre
important de caractéristique.
Mais il existe quelques observations qui sont loin, et qui ont un comportement différent.
CAH
Figure 14: Dendrogramme de la variable « spécialisation »
Interprétation
Ce dendrogramme n’est pas vraiment significatif.
17. PROJET DATA MINING 17
Prédiction de la spécialisation du pays
Figure 15: Arbre de décision
Interprétation
Nous ne pouvons pas retenir grand-chose de ce modèle.
Figure 16: Modèle Knn vs Modèle SVM Linéaire vs Modèle SVM Polynomial
Interprétation
Le modèle knn est le modèle le plus performant par rapport au deux autres modèles. C’est le
premier modèle qui atteint la stabilisation, après lui on trouve modèle svm linéaire puis dans la
dernière place le modèle svm polynomial.
18. PROJET DATA MINING 18
Prédiction du rendement par produit
Pour prédire le rendement du pas nous avons choisi de travailler que sur les spécialisations
du pays, et nous avons procédé pour résoudre cette problématique au modèle linéaire réduit.
Figure 17: Les résidus vs Les valeurs ajustées
Figure 18: Etude de la normalité
19. PROJET DATA MINING 19
Figure 19: Centrage et Réduction
Figure 20: L'influence des résidus
canada_test_specialisation$Produit real_values pred_reduit
Blé 3.02 3.0038063384801
Autres céréales secondaires 3.263238031 3.3643095713517
Drêches sèches de distillerie 0 0.0457326756505716
Soja 2.539 2.90494646048398
Autre Oléagineux 1.970616659 2.02644728669704
Tourteaux protéiques 0 -0.0709660009061818
20. PROJET DATA MINING 20
Huiles végétales 0 -0.0625381929104795
Sirop de maïs à haute teneur en
fructose 0 -0.0180165195156542
Viande bovine (epc) 0 -0.048279378615539
Viande porcine (epc) 0 -0.0318640239268071
Lait écrémé en poudre (pp) 0 0.00638104534758935
Poissons 0 -0.0021179884417174
RACINES et TUBERCULES 6.103089245 5.87225559077362
Interprétation
Ce modèle nous permet de dire que le Canada doit s’investir en 2017 dans les secteurs de
productions des produits suivants : Blé, Autres céréales secondaires, Soja, Autre Oléagineux et les
RACINES et TUBERCULES.
Conclusion
Dans cette section nous avons été mené à déterminer les secteurs les plus rentables afin de
s’y investir dans l’année prochaine.