SlideShare ist ein Scribd-Unternehmen logo
1 von 7
Downloaden Sie, um offline zu lesen
Techniques d’exploitation de donnĂ©es
(Data Mining)
Projet 1
Professor : François Bellavance
Abdolrasoul Baharifard
(Étudiant de l’universitĂ© Laval)
Hiver 2015
Motivation :
Dans ce travail, nous gĂ©nĂ©rons des rĂšgles d’association pour une chaĂźne de boulangerie ayant un
menu de 40 articles de pĂątisseries et de 10 boissons Ă  travers diffĂ©rentes succursales aux États-
Unis.
Description de la base de données :
Dans notre sujet de travail, on utilise des donnĂ©es d’une boulangerie contenant des informations
sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les
modalitĂ©s 0 indiquent absence et 1 prĂ©sence. Par exemple, pour la variable ‘cafe’, 1 indique le
client a achetĂ© le cafĂ© et 0 indique qu’il n’a pas achetĂ© du cafĂ©.
Objectif :
Nous allons donc gĂ©nĂ©rer des rĂšgles d’associations reprĂ©sentant les Ă©lĂ©ments Ă  prĂ©senter
conjointement sur la chaĂźne de boulangeries. De ce fait, nous serons en mesure de conseiller les
boulangeries sur comment ils peuvent aménager les produits et les dispositions de leur aliments
afin d’amener plus de clients à consommer leurs produits.
.
SĂ©lection des variables :
Nous sĂ©lectionnons les variables pour l’analyse selon les Ă©tapes suivantes:
‱ Inclusion de tous les variables dans notre jeu de donnĂ©es pour voir quelles variables sont
pertinentes avec les rùgles d’associations.
‱ Choix des variables avec amĂ©liorations supĂ©rieurs Ă  30%. Les variables considĂ©rĂ©s sont :
limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert,
soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme,
croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
‱ Inclusion des variables de l’étape prĂ©cĂ©dente dans SAS base, et gĂ©nĂ©ration de nouvelles
rùgles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une
confiance attendue supérieure à 10%. Ces variables sont :
limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe,
twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes,
danoise_abricots, tarte_cerises.
Modélisation
AprÚs la préparation des données avec SAS base, nous les importons dans SAS EM. Les
paramĂštres importants du nƓud association que nous considĂ©rons sont (Annexe 1):
‱ ÉlĂ©ment maximum : 4
‱ Niveau de confiance minimum : 80%
‱ Pourcentage de support minimum : 5%
AprÚs lancer le programme on a obtenu les résultats qui viennent dans la section suivante.
Interprétation des résultats
On a roulé SAS EM et parmi les rÚgles obtenues, on a choisi les rÚgles rependant aux
critĂšres suivant (Annexe 3) :
‱ Confiance >= 80%
‱ Support >=4
‱ Lift >=5
GrĂące Ă  ce processus, on sĂ©lection un sous-ensemble de rĂšgle de annexe 3 en utilisent l’annexe 2
selon les critĂšres suivants :
‱ La rùgle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
est plus intéressante que la rÚgle the_vert & biscuit_ framboises ==> limonade_citron &
biscuit_citron parce que l’amĂ©lioration, support et confiance pour la premiĂšre est plus Ă©levĂ©e que
la deuxiĂšme.
‱ De la mĂȘme maniĂšre, la rĂšgle limonade_framboises & biscuit_citron ==> limonade_citron
est plus intéressante que la rÚgle limonade_citron & biscuit_ framboises ==> biscuit_citron
parce que l’amĂ©lioration, support et confiance pour la premiĂšre est lĂ©gĂšrement Ă©levĂ©e que la
deuxiĂšme.
‱ La mĂȘme critĂšre s’applique pour les 2 rĂšgles que nous intĂ©ressent.
Con
f
Sup
p
Améli Transa
c
RĂšgles
92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes
92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron
‱ limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron :
La confiance pour cette rĂšgle est 92.2%, c’est-Ă -dire 92.2% des clients qui ont achetĂ©
limonade_framboises et biscuit_ framboises dans la transaction ont également acheté
limonade_citron et biscuit_citron . 4.44% des transactions dans la base de données contiennent
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au mĂȘme
temps. Aussi l’amĂ©lioration 19.07 indique qu’il y a une forte relation positive entre
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron).
‱ Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
90% des clients qui ont acheté une Tarte_complete_pommes et un cafe ont également acheté
une eclair cafe. 4.85 % des transactions dans la base de données supportent cette rÚgle.
L’amĂ©lioration Ă  13.94 est aussi considĂ©rable.
‱ Eclair_cafe & cafe ==> twiste_amandes
89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une
twiste_amandes. 4.89 % des transactions dans la base de données supportent cette rÚgle.
‱ limonade_framboises & biscuit_citron ==> limonade_citron
92.09% des clients qui ont acheté des limonade_framboises et biscuit_citron ont également
acheté une limonade_citron. 4.46 % des transactions dans la base de données supportent cette
rĂšgle.
Conclusion :
Nous pouvons aussi remarquer que les éléments revenant le plus souvent conjointement sur les
boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron,
the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes,
croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisĂ© de nos
base de donnĂ©es nous a permis, non seulement d’établir des profils intĂ©ressants et interprĂ©tables,
mais Ă©galement des groupes de produits sur lesquels les boulangeries peux mieux se concentrer
afin de cibler leur clientĂšle.
Annexe 1 : SAS EM avec notre base de données
Annexe 2 : Graphique des rĂšgles Ă  analyser
Annexe 3 : les rĂšgles sĂ©lectionnĂ©es en utilisant l’annexe 2

Weitere Àhnliche Inhalte

Andere mochten auch

programmheft
programmheftprogrammheft
programmheftIndrani Kar
 
El Sotano
El SotanoEl Sotano
El SotanoV Sanchez
 
Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2smestref
 
Cotylorhiza tuberculata
Cotylorhiza tuberculataCotylorhiza tuberculata
Cotylorhiza tuberculatasmestref
 
PARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUTPARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUTPascal Boscher
 
Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14SOASTA
 
Directivas
DirectivasDirectivas
Directivastoniomadrid
 
"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The Cocktail"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The CocktailEnrique Place
 
EL CAMBIO
EL CAMBIOEL CAMBIO
EL CAMBIOastuto
 
Internet de las cosas
Internet de las cosasInternet de las cosas
Internet de las cosasdanielajaimessi
 
OLENTZEROREN IPUINA
OLENTZEROREN IPUINAOLENTZEROREN IPUINA
OLENTZEROREN IPUINAbmeranalg
 

Andere mochten auch (16)

programmheft
programmheftprogrammheft
programmheft
 
El Sotano
El SotanoEl Sotano
El Sotano
 
DENUNCIA INFANTIL
DENUNCIA INFANTILDENUNCIA INFANTIL
DENUNCIA INFANTIL
 
Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2
 
Cotylorhiza tuberculata
Cotylorhiza tuberculataCotylorhiza tuberculata
Cotylorhiza tuberculata
 
Biblioteca Judicial de Tarragona. Ana Abarca
Biblioteca Judicial de Tarragona. Ana AbarcaBiblioteca Judicial de Tarragona. Ana Abarca
Biblioteca Judicial de Tarragona. Ana Abarca
 
PARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUTPARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUT
 
Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14
 
Directivas
DirectivasDirectivas
Directivas
 
"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The Cocktail"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The Cocktail
 
consejos Mari
consejos     Mariconsejos     Mari
consejos Mari
 
EL CAMBIO
EL CAMBIOEL CAMBIO
EL CAMBIO
 
Internet de las cosas
Internet de las cosasInternet de las cosas
Internet de las cosas
 
Weblogs
WeblogsWeblogs
Weblogs
 
FERIA DE SAN MIGUEL 2013 BENARRABÁ
FERIA DE SAN MIGUEL 2013 BENARRABÁFERIA DE SAN MIGUEL 2013 BENARRABÁ
FERIA DE SAN MIGUEL 2013 BENARRABÁ
 
OLENTZEROREN IPUINA
OLENTZEROREN IPUINAOLENTZEROREN IPUINA
OLENTZEROREN IPUINA
 

Ähnlich wie Market Basket Analysis

Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Kiss The Bride
 
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfLa connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfCibleWeb
 
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)ECR Community
 
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyStatistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyTheFamily
 
Intervention 42Ăšme ja ifm 26 nov. 2014
Intervention 42Ăšme ja ifm 26 nov. 2014Intervention 42Ăšme ja ifm 26 nov. 2014
Intervention 42Ăšme ja ifm 26 nov. 2014Fabien VITAL
 
Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09wellandyou
 
MyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfMyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfssuser423ad2
 
2009 Partenaire Gua
2009 Partenaire Gua2009 Partenaire Gua
2009 Partenaire Guathierryseguin
 
Pricing Assistant - veille tarifaire
Pricing Assistant - veille tarifairePricing Assistant - veille tarifaire
Pricing Assistant - veille tarifaireAlexis Pisotti
 
Optimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimizely
 

Ähnlich wie Market Basket Analysis (12)

Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
 
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfLa connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
 
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)
ECR France Forum ‘06. Gestion des donnĂ©es synchronisĂ©e (GDS)
 
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyStatistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
 
Intervention 42Ăšme ja ifm 26 nov. 2014
Intervention 42Ăšme ja ifm 26 nov. 2014Intervention 42Ăšme ja ifm 26 nov. 2014
Intervention 42Ăšme ja ifm 26 nov. 2014
 
Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09
 
MyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfMyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdf
 
2009 Partenaire Gua
2009 Partenaire Gua2009 Partenaire Gua
2009 Partenaire Gua
 
Ethiquable
Ethiquable Ethiquable
Ethiquable
 
Pricing Assistant - veille tarifaire
Pricing Assistant - veille tarifairePricing Assistant - veille tarifaire
Pricing Assistant - veille tarifaire
 
Optimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B Testing
 
Invest - PriceBreak.It!
Invest - PriceBreak.It!Invest - PriceBreak.It!
Invest - PriceBreak.It!
 

Market Basket Analysis

  • 1. Techniques d’exploitation de donnĂ©es (Data Mining) Projet 1 Professor : François Bellavance Abdolrasoul Baharifard (Étudiant de l’universitĂ© Laval) Hiver 2015
  • 2. Motivation : Dans ce travail, nous gĂ©nĂ©rons des rĂšgles d’association pour une chaĂźne de boulangerie ayant un menu de 40 articles de pĂątisseries et de 10 boissons Ă  travers diffĂ©rentes succursales aux États- Unis. Description de la base de donnĂ©es : Dans notre sujet de travail, on utilise des donnĂ©es d’une boulangerie contenant des informations sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les modalitĂ©s 0 indiquent absence et 1 prĂ©sence. Par exemple, pour la variable ‘cafe’, 1 indique le client a achetĂ© le cafĂ© et 0 indique qu’il n’a pas achetĂ© du cafĂ©. Objectif : Nous allons donc gĂ©nĂ©rer des rĂšgles d’associations reprĂ©sentant les Ă©lĂ©ments Ă  prĂ©senter conjointement sur la chaĂźne de boulangeries. De ce fait, nous serons en mesure de conseiller les boulangeries sur comment ils peuvent amĂ©nager les produits et les dispositions de leur aliments afin d’amener plus de clients Ă  consommer leurs produits. . SĂ©lection des variables : Nous sĂ©lectionnons les variables pour l’analyse selon les Ă©tapes suivantes: ‱ Inclusion de tous les variables dans notre jeu de donnĂ©es pour voir quelles variables sont pertinentes avec les rĂšgles d’associations. ‱ Choix des variables avec amĂ©liorations supĂ©rieurs Ă  30%. Les variables considĂ©rĂ©s sont : limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert, soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme, croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
  • 3. ‱ Inclusion des variables de l’étape prĂ©cĂ©dente dans SAS base, et gĂ©nĂ©ration de nouvelles rĂšgles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une confiance attendue supĂ©rieure Ă  10%. Ces variables sont : limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe, twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. ModĂ©lisation AprĂšs la prĂ©paration des donnĂ©es avec SAS base, nous les importons dans SAS EM. Les paramĂštres importants du nƓud association que nous considĂ©rons sont (Annexe 1): ‱ ÉlĂ©ment maximum : 4 ‱ Niveau de confiance minimum : 80% ‱ Pourcentage de support minimum : 5% AprĂšs lancer le programme on a obtenu les rĂ©sultats qui viennent dans la section suivante. InterprĂ©tation des rĂ©sultats On a roulĂ© SAS EM et parmi les rĂšgles obtenues, on a choisi les rĂšgles rependant aux critĂšres suivant (Annexe 3) : ‱ Confiance >= 80% ‱ Support >=4 ‱ Lift >=5 GrĂące Ă  ce processus, on sĂ©lection un sous-ensemble de rĂšgle de annexe 3 en utilisent l’annexe 2 selon les critĂšres suivants :
  • 4. ‱ La rĂšgle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron est plus intĂ©ressante que la rĂšgle the_vert & biscuit_ framboises ==> limonade_citron & biscuit_citron parce que l’amĂ©lioration, support et confiance pour la premiĂšre est plus Ă©levĂ©e que la deuxiĂšme. ‱ De la mĂȘme maniĂšre, la rĂšgle limonade_framboises & biscuit_citron ==> limonade_citron est plus intĂ©ressante que la rĂšgle limonade_citron & biscuit_ framboises ==> biscuit_citron parce que l’amĂ©lioration, support et confiance pour la premiĂšre est lĂ©gĂšrement Ă©levĂ©e que la deuxiĂšme. ‱ La mĂȘme critĂšre s’applique pour les 2 rĂšgles que nous intĂ©ressent. Con f Sup p AmĂ©li Transa c RĂšgles 92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron 90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes 92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron ‱ limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron : La confiance pour cette rĂšgle est 92.2%, c’est-Ă -dire 92.2% des clients qui ont achetĂ© limonade_framboises et biscuit_ framboises dans la transaction ont Ă©galement achetĂ© limonade_citron et biscuit_citron . 4.44% des transactions dans la base de donnĂ©es contiennent (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au mĂȘme temps. Aussi l’amĂ©lioration 19.07 indique qu’il y a une forte relation positive entre (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron). ‱ Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 90% des clients qui ont achetĂ© une Tarte_complete_pommes et un cafe ont Ă©galement achetĂ© une eclair cafe. 4.85 % des transactions dans la base de donnĂ©es supportent cette rĂšgle. L’amĂ©lioration Ă  13.94 est aussi considĂ©rable. ‱ Eclair_cafe & cafe ==> twiste_amandes
  • 5. 89.1% des clients qui ont achetĂ© des eclair_cafe et cafe ont Ă©galement achetĂ© une twiste_amandes. 4.89 % des transactions dans la base de donnĂ©es supportent cette rĂšgle. ‱ limonade_framboises & biscuit_citron ==> limonade_citron 92.09% des clients qui ont achetĂ© des limonade_framboises et biscuit_citron ont Ă©galement achetĂ© une limonade_citron. 4.46 % des transactions dans la base de donnĂ©es supportent cette rĂšgle. Conclusion : Nous pouvons aussi remarquer que les Ă©lĂ©ments revenant le plus souvent conjointement sur les boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisĂ© de nos base de donnĂ©es nous a permis, non seulement d’établir des profils intĂ©ressants et interprĂ©tables, mais Ă©galement des groupes de produits sur lesquels les boulangeries peux mieux se concentrer afin de cibler leur clientĂšle.
  • 6. Annexe 1 : SAS EM avec notre base de donnĂ©es Annexe 2 : Graphique des rĂšgles Ă  analyser
  • 7. Annexe 3 : les rĂšgles sĂ©lectionnĂ©es en utilisant l’annexe 2