SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
DATAMINIG SUR
EBAY-
KLEINANZEIGEN 
PROJET DE DATAMING
HANNACHI MAJDI
R É A L I S É P A R :
Statistiques descriptives ,
clustering et prédiction
majdi_hannachi@outlook.fr
2
Sommaire:
.
Contexte.....................................................................3
Énonce du projet......................................................4
Source de données..................................................5
Environnement de travail......................................7
RapidMiner.................................................................8
Prétraitement des données................................11
Statistiques descriptives.....................................14
Etude statistique....................................................18
Extraction des connaissances Ă  partir des
données.....................................................................22
Comparaison et interprétation..........................30
3
Contexte:
Selon Forbes, le secteur de l'automobile a connu une croissance massive de
68% depuis son passage Ă  un creux lors de la crise financiĂšre mondiale de 2009,
selon un rapport publié par la société de ventes aux enchÚres automobile
Manheim au début de cette année.
Le troisiÚme trimestre de 2016 a clÎturé avec 9,8 millions de véhicules vendus
sur le marché des véhicules d'occasion, soit une augmentation de 3,3% par
rapport à l'année précédente. En outre, le véhicule moyen vendu au détail s'est
vendu 19,232 $ au troisiĂšme trimestre de 2016, soit une augmentation de 4,3%
par rapport à l'année derniÚre. Cette augmentation des valeurs globales est
alimentée par le plus jeune ùge (4,0 ans en moyenne) des véhicules vendus chez
les concessionnaires franchisés.
Les changements de comportement d'achat de voitures neuves commencent Ă 
modifier le paysage des véhicules d'occasion franchisés.
Ainsi, les entreprises de vĂ©hicules d'occasion franchisĂ©es et d’autres grandes
places de marché en ligne comme E-Bay tirent parti du taux de croissance de
l’industrie des voitures d’usage. Nous
à l'occasion de faire un projet collective par binÎme suggéré par notre
enseignante à l'Institut supérieur des études technologiques de RadÚs
Madame Hind eloui, on a donc essayé de comprendre ce marché et sa
dynamique Ă  l’aide du dataset ‘Used Car Database’ publiĂ© sur la plateforme de
DataScience de Kaggle.com en exécutant des algorithmes de Datamining
descriptifs et prédictifs en se mettant à la place d'un acheteur et un annonceur.
4
Enoncé du Projet:
1- Objectif:
Appliquer le processus d’Extraction des Connaissances à partir des
données (ECD) sur un cas pratique en utilisant différents algorithmes
de Data Mining.
2- Travail Ă  faire:
Choisir une base (assez volumineuse)
DĂ©crire la base (en faisant des recherches)
Etude statistique:
Appliquer une mĂ©thode statistique pour l’analyse de donnĂ©es.
Visualiser les résultats.
Commenter, interpréter les résultats.
Tirer les conclusions
Extraction des connaissances à partir des données:
Identifier le problĂšme.
Préparer les données (prétraitements)
Utiliser plusieurs techniques de Data Mining pour extraire les
connaissances et explorer des modĂšles.
Visualisation des résultats.
Comparaison et interprétation des résultats obtenus.
Comparaison entre la méthode statistique et les techniques de Data
Mining.
RĂ©daction de rapport.
5
Source de données:
Kaggle est une plateforme web organisant des
compétitions en science des données. L'entreprise
a été créée en 2010 par Anthony Goldbloom. Sur
cette plateforme, les entreprises proposent des
problÚmes en science des données et offrent un
prix aux datalogistes obtenant les meilleures
performances.
eBay est une entreprise américaine de courtage en
ligne, connue par son site web de ventes aux
enchĂšres du mĂȘme nom. Elle a Ă©tĂ© crĂ©Ă©e en 1995
par le Français Pierre Omidyar.Parmis les artices
qui se vent on trouve les voitures d'occasion
Le dataset était publié le 28/11/2016 sur kaggle
par le data analyste et le mathématicien chez
Statistik Beratung , Orges Leka.
Profil: www.kaggle.com/orgesleka
Le dataset est un fichier csv intitulé 'autos' contenant plus de 370 000
véhicules qui ont été vendus au enchÚres sur ebay de taille 65 MB.
1- Fichier source:
2- Kaggle:
3- eBay:
6
4- description du fichier:
Le fichier source Autos.csv est un fichier de type CSV contenant un
tableau de données concernant 371 824 lignes et 20 colonnes
décrivant les caractéristiques d'une voiture ainsi que l'annonce dont
on trouve sur ebay de l'Allemagne.
Ces attribues ce traduit selon ci-dessous:
dateCrawled : la date de publication
name : nom de la voiture (titre de l'annonce)
seller : (privé ou concessionnaire )
offerType: offre ou pétition
price : prix de la voiture en euro
abtest: test ou contrĂŽle
vehicleType: type de véhicule
yearOfRegistration : l'année dont la voiture est construite
gearbox: type de transmission
powerPS : puissance de la voiture
model: modĂšle de la voiture
kilometer : kilométrés traversés par la voiture
monthOfRegistration :le mois dans la voiture est construite
fuelType: type de carburant
brand: marque
notRepairedDamage :si la voiture est endommagé
dateCreated : date de création de l'annonce
nrOfPictures : nombre d'images
postalCode
lastSeenOnline : derniÚre vu (la derniÚre vu est considéré comme
date de vente de la voiture)
7
Environnement de travail:
Majdi Hannachi
junior Data-Scientist
Etudiant en M2BI Ă  ISET RADES
Ram 4 Go
Disque dur 1T
Processeur 6Ă©me
generation i5
8
RapidMiner:
RapidMiner est une plate-forme logicielle de
science des données développée par la société
du mĂȘme nom, payante, qui fournit un
environnement intégré pour la préparation de
données, l'apprentissage automatique,
l'apprentissage en profondeur, l'exploration de
texte et l'analyse prédictive.
RapidMiner possÚde un outil de préparation de
données multifonctionnel qui aide à faire tout
type de préparation de données que ce soit
nettoyage de données ou transformation de
données, ainsi que des outils de visualisation de
avec une grandes diversité de diagrammes.
RapidMiner propose une interface graphique
conviviale avec un ensemble de fonctionnalités qui
peut traiter et appliquer tout type d'apprentissage
automatiques supervisé et non supervisé afin
de classifier les donnĂ©es, prĂ©dire et mĂȘme
détecter les valeurs aberrantes.
RapidMiner présente aussi des outils pour la
validation des algorithmes interprétés avec
diverse type de validation tout dépend du type de
l'algorithme, et offre aussi une interface de
simulation afin de déployer le clustering ou la
prediction en tant que utilisateur
1- Présentation:
2- Services:
9
Fonctionnalités de
RapidMiner:
Accés à tous type de données que ce soit des données
enregistré sur des fichiers ou bien des données
hébergées sur une base de données externe sql et
NoSql.
Des outils de découverte de données avec une
bibliothéques riches de diagrammes pour l'exploration
de données et pour assister la statistique descriptives
Multiples outils et fonctionnalités pour entrer les
préparations nécessaires à fin de transformer les
données et les organiser pour le déploiement des
algorithmes de l'apprentissage automatique.
Ensemble de composantes de worlflow pour faire tout
type de filtrage et de nettoyage des données à fin de
les préparer pour les algorithmes.
Faire la construction des modelés et les paramétrer
selon les besoins du modĂšle choisi et faire la livraison
des modĂšles plus rapide.
Valider le modĂšle avec les nombreux outils de
validation disponibles pour voir la performance du
modĂšle et les taux d'erreur produites.
L'interface de RapidMiner est basé sur le principe de Drag &
Drop et la modélisation du démarche de dataming, ce principe
est défini par Visual workflow designer avec lequel on fait le
désigne de notre prototype.
Les différents fonctionnalités de RapidMiner se traduit dans ces
six modules:
1-Principe:
2-Fonctionnalités:
10
Pourquoi RapidMiner?
Visual workflow designer accélÚre le prototypage et la
validation des modÚles prédictifs, avec des connexions
prédéfinies, des modÚles intégrés et des flux de travail
répétables.
BibliothĂšque riche de plus de 1500 algorithmes et fonctions
d'apprentissage automatique pour créer le modÚle prédictif le
plus puissant possible, quel que soit le cas d'utilisation
Ouvert et extensible pour une intégration facile avec les
applications existantes, les données et les langages de
programmation tels que Python et R
DĂ©sormais avec Auto Model et Turbo Prep: RapidMiner Auto
Model utilise l'apprentissage automatique pour accélérer chaque
Ă©tape du cycle de vie de la construction d'un modĂšle. Avec
RapidMiner Turbo Prep, tout le monde, des analystes aux
scientifiques de données, peut facilement transformer, faire
pivoter et mélanger des données provenant de sources multiples
en quelques clics.
1- Avantages:
2- Comparaison avec autres outils:
11
Prétraitement des
données:
1-Principe:
Le prétraitement concerne la mise en forme des données entrées selon leur
type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des
donnĂ©es, le traitement des donnĂ©es manquantes, la sĂ©lection d’attributs ou
la sĂ©lection d’instances. Cette premiĂšre phase est cruciale car du choix des
descripteurs et de la connaissance précise de la population va dépendre la
mise au point des modĂšles de prĂ©diction. L’information nĂ©cessaire Ă  la
construction d’un bon modĂšle de prĂ©vision peut ĂȘtre disponible dans les
donnĂ©es mais un choix inappropriĂ© de variables ou d’échantillons
d’apprentissage peut faire Ă©chouer l’opĂ©ration.
2-Nettoyage des données:
Pour le dataset 'autos' , on doit faire la sélection des attributs pertinentes qui
se coïncide avec l'analyse de la valeur du voiture ainsi que de l’annonce,
Avec le composant 'Select Attributes' on fait la sélection des attributs
suivants:
Processus de nettoyage
12
On abondonne tout les attributs qui avec une stabilité plus de 95% avec le
filtre Remove useless Attributes et on fait la génération des jours de
ventes.
Puis on se fait débarrasser des valeurs manquantes gràces au composent
'no_missing_values'.
Ensuite on fait le filtrage des données selon les principes suivants:
Le filtrage ici est basé sur la logique d'un acheteur qui ne voulait pas une
voiture trÚs ùgée , avec un nombre de kilométres traversés qui est ne
traduit pas une voiture neufs ou une voiture en état endommagé avec un
prix raisonnable et une puissance acceptable.Ce processus nous aide Ă 
se débarrasser un valeur aberrantes.
13
Enfin , on termine le processus de nettoyage par la suppression des
lignes dupliqués selon les attributs suivantes:
3- RĂ©sultat:
Le processus de prétraitement nous a aidé à se débarrasser de plus
180 000 valeurs manquantes, supprimer 8 colonnes qui n'ont aucun
intĂ©rĂȘt pour l'analyse.
Donc notre dataset s'est transformé en:
- 12 colonnes
- 218 699 ligne
- 8.7 Mb de taille
14
Statistiques descriptives:
1- Objectif:
L'objectif de cette analyse descriptif des données et de mieux connaitre les
differentes aspects du dataset et de mieux comprendre les differentes
tendances présentées par les variable pertinentes.
2- Analyse des variables:
distribution de la marque de voiture
Ce diagramme nous montre que la
marque plus publié sur le site de
ebay est volkswagen avec plus de
45 000 annonce puis on trouve
BMW et mercedes benz.
Dans ce data set on trouve 40
marques de voiture ceci est traduit
par le nombre des modalités de
l'attribut Brand.
a- Brand:
b- VehiculeType:
distribution de type de voiture
On trouve alors que les voiture
berline (limousine), break (kombi)
et les petites voitures (keinwagen)
sont les types les plus publiés et les
plus vendu sur ebay avec un
nombre totale de plus de 150 000
publication.
15
c- GearBox:
répartition du Gearbox sur la population
Le graphique fait clarifie que la majorité de
population (3/4 des annonces) ont la
transmission manuelle et le reste de
transmission automatique.
c- FuelType:
Le bar-chart nous présente
que le type de carburant
les utilisés sont l'essence
(benzin) et le diesel sur
une somme de plus de 200
000 lignes.
Distribution de type de carburant sur la population
d- PowerPs:
histogramme de répartition de puissance
La moyenne et le médian de
cette distribution est autour
de 105 ainsi que la plupart de
la population se focalise
entre 30 et 250 chevaux
vapeurs.
16
e- Kilometer:
Histogramme des kilométrés traversé par les voitures
On voit ici que la
concentration des données et
vocalisé sur plus de 100 000
km et plus particuliĂšrement
les voitures qui ont 150 000 de
km dans sur le compteur.
e- age:
Distribution selon l'age
On trouve ici une distribution
normal dont la moyenne et le
médian sont autout de 14 ans.
17
2- Analyse de la corrélation:
workflow de visualisation de la matrice de corrélation
Une matrice de corrélation est utilisée pour évaluer la dépendance entre
plusieurs variables en mĂȘme temps. Le rĂ©sultat est une table contenant
les coefficients de corrélation entre chaque variable et les autres.
Ceci se fait par le composant de RapidMiner Corrélation Matrix comme
indiqué ci dessous:
Le paramétrage se fait par la sélection des attributs à apparaßtre dans la
matrice. Le résultat obtenu est le tableau suivant:
matrice de corrélation
On a une faible corrélation entre la durée de vente et le prix. Pas
de relation entre ses deux variables.
Une corrélation moyenne négative entre le nombre de kilomÚtres
parcourus et le prix. Plus le Kilométrage augmente plus le prix
diminue.
Une corrélation positive moyenne entre la puissance et le prix. Plus
la puissance augmente le prix augmente.
Interprétation:
18
Etude statistique:
1- Objectif:
L'objectif absolu d'une Ă©tude statistique est d’identifier un
phĂ©nomĂšne, le dĂ©crire et mĂȘme parfois Ă©numĂ©rer ses raison. Pour
ce cas, on veut caractérisé le phénomÚne de vente au enchÚre des
voiture et avoir une explication sur les différentes catégories de prix.
2- L'analyse:
Pour cela, on va faire une Analyse en Composantes Principales
(ACP) sur notre ensemble de données.
a- DĂ©finition:
L'Analyse en Composantes Principales (ACP) est l'une des
méthodes d'analyse de données multivariées les plus utilisées.
Elle permet d’explorer des jeux de donnĂ©es multidimensionnels
constitués de variables quantitatives.
b- Principe:
L'Analyse en Composantes Principales peut ĂȘtre considĂ©rĂ©e
comme une méthode de projection qui permet de projeter les
observations depuis l'espace Ă  p dimensions des p variables vers
un espace Ă  k dimensions (k < p) tel qu'un maximum
d'information soit conservée (l'information est ici mesurée au
travers de la variance totale du nuage de points) sur les
premiÚres dimensions. Si l'information associée aux 2 ou 3
premiers axes représente un pourcentage suffisant de la
variabilité totale du nuage de points, on pourra représenter les
observations sur un graphique Ă  2 ou 3 dimensions, facilitant
ainsi grandement l'interprétation.
19
Workflow de ACP
Sur RapidMiner pour mener une ACP(PCA en anglais) il faut
choisir le composant PCA :
c- Application et resultats:
L’exĂ©cution de ce workflow nous a montrer les resultat suivantes:
tableau de la variance cumulatives
test de coude: variance cumulative
Le premier axe conserve 44% de
l’inertie du nuage. Il est peu
probable qu’il soit dĂ» au hasard.
Le second axe conserve une part
de l’inertie totale de 22%.
La chute est importante dĂšs le
troisiĂšme axe qui ne conserve plus
que 22% de l’inertie totale.
On peut décider de ne retenir que les trois premiers axes (le premier plan
factoriel) car il comprĂ©hensible par l’Ɠil (c’est un plan) et ne dĂ©forme pas
trop le nuage (il explique 82% de l’inertie du nuage)
20
Eigenvectors
Maintenant on va analyser les principaux composantes de chaque vecteur
Ă  l'aide du table suivant:
L’interprĂ©tation des nouvelles variables (des axes factoriel) se fera Ă  l’aide
des individus et variables contribuant le plus à l’axe avec la rùgle suivante :
si une variable a une forte contribution positive à l’axe, les individus ayant
une forte contribution positive Ă  l’axe sont caractĂ©risĂ©s par une valeur
élevée de la variable.
Pour PC1: l'age (0.538) et le prix (price , -0.598) contribuent avec l'axe;
plus la valeur est élevée plus le prix diminue et plus l'age augmente.
Pour PC2: la puissance (powerPS, 0.769 ) contribue avec l'axe; plus la
valeur est élevée plus la puissance est élevée.
Pour PC3: la durée de vente (sold_days , 0.988) contribue bien avec
l'axe; valeur est élevée plus le nombre de jours est élevée.
Pour la variable kilometer, on ne peut pas juger car les deux valeurs sur
les deux premiers axes sont presque la mĂȘme (0.474 , 0.509).
21
Pour présenter le resultat, on besoin d'un graphique de trois dimensions
comme présenté ci-dessous:
Présentation du nuage des données
Le nuage des points est présenté au milieu de l'axe d'ou les voitures
sont de valeur autour de la moyenne (8010 euro) et l'age varie autour
de 12 ans.
La puissance des voitures est concentré dans la marge de l'origine 0
d'ou aussi il y'a une concentration des données autour du moyenne 105
avec une présence de quelques valeurs aberrantes présentées à
gauche de l'axe avec les voitures puissantes.
La concentration du nuage est présentée autour de -1 donc les voitures
en générale se vendent vite dés la premiÚre semaine (moyenne = 9
jours).
Les vĂ©hicules puissantes se vente mal puisque il sont chĂšre et mĂȘme
interprétation pour les véhicules ùgées puissantes.
22
Extraction des
connaissances Ă  partir
des données
1- Présentation:
a- Datamining:
Forage de données, explorations de données ou fouilles de données,
ce sont les traductions possibles du data mining en Français. En rÚgle
gĂ©nĂ©rale, le terme Data Mining dĂ©signe l’analyse de donnĂ©es depuis
différentes perspectives et le fait de transformer ces données en
informations utiles, en établissant des relations entre les données ou en
repĂ©rant des patterns. Ces informations peuvent ensuite ĂȘtre utilisĂ©es
par les entreprises pour augmenter un chiffre d’affaires ou pour rĂ©duire
des coûts. Elles peuvent également servir à mieux comprendre une
clientĂšle afin d’établir de meilleures stratĂ©gies marketing...
b- ECD:
L’ECD est un processus complexe qui se dĂ©roule suivant une suite
d’opĂ©rations. Des Ă©tapes de prĂ©traitement ont lieu avant le « data
mining » proprement dit. Le prĂ©traitement porte sur l’accĂšs aux donnĂ©es
en vue de construire des « datamarts », des corpus de données
spécifiques. Le prétraitement concerne la mise en forme des données
entrées selon leur type (numérique, symbolique, image, texte, son),
ainsi que le nettoyage des données, le traitement des données
manquantes, la sĂ©lection d’attributs ou la sĂ©lection d’instances. Cette
premiĂšre phase est cruciale car du choix des descripteurs et de la
connaissance précise de la population va dépendre la mise au point des
modĂšles de prĂ©diction. L’information nĂ©cessaire Ă  la construction d’un
bon modĂšle de prĂ©vision peut ĂȘtre disponible dans les donnĂ©es mais un
choix inappropriĂ© de variables ou d’échantillons d’apprentissage peut
faire Ă©chouer l’opĂ©ration.
23
2- Problématique:
Le dataset utilisé ait une quantité de données vaste qui décrit le marché
des enchĂšres pour la ventes des voitures d'occasion. Comprendre le
domaine et tous ses atouts est un facteur majeur pour tout type de
participant direct ou indirect dans le marché.
Pour cela on va mener un processus de ECD dont on va appliquer
diverse méthodes de machine learning et de dataming à fin de :
Connaitre les différents segments du marchés.
Classifier les voitures selon la valeur Ă  fin d'optimiser l'achat.
Prédire la durée de vente pour tout annonceur.
Alors on va utiliser des algorithmes de classification ( k-means , rĂšgles
d'association) et des algorithmes de prédiction (régression linéaire..)
3- Mise en oeuvre:
a- Clustering K-means:
La méthode des k-means est un outil de classification classique qui
permet de répartir un ensemble de données en classes homogÚnes.
Dans le cadre de la classification non supervisée, on cherche
généralement à partitionner l'espace en classes concentrées et isolées
les unes des autres. Dans cette optique, l'algorithme des k-means vise
Ă  minimiser la variance intra-classe.
Prétraitement:
Pour avoir une segmentation k-means fiable, on doit travailler avec des
attributs numériques normalisés qui sont pertinente à l'analyse. Les
attributs sont:
l'age de la voiture
le prix
le kilométrage parcouru
la puissance
Workflow de prétraitement pour le clustering k-means
24
Exécution:
Sur Rapidminer, la interprétation du modéle se
fait grace au composent 'clustering' dont on
paramétre la methode de calcule de distance
(euclidienne) .
k means clustering
component
résultat du clustering
résultat:
Cluster 0 : 45 025 instances
Cluster 1 : 100 058 instances
Cluster 2 : 59 885 instances
Cluster 3 : 13 731 instances
Cluster 0 : prix moyen , puissance faible , kilométrage faible, age faible :
ceux sont des voiture 'daily' qui sont récemment achetées
Cluster 1 : voitures ùgées avec un kilométrage élevé de prix faible
Cluster 2 : voitures puissantes avec un kilométrage élevé
Cluster 3 : voiture puissante et nouvelles (sport et luxueuse)
25
b- RĂ©gles d'association:
La recherche des rÚgles d'association est une méthode populaire étudiée
d'une maniÚre approfondie dont le but est de découvrir des relations ayant un
intĂ©rĂȘt pour le statisticien entre deux ou plusieurs variables stockĂ©es dans de
trÚs importantes bases de données.
X -> Y oĂč X et Y sont des ensembles d’items disjoints.
Condition: Partie gauche de la rĂšgle.
Conséquence: Partie droite de la rÚgle.
Support, fréquence: « Partie gauche et droite sont présentes
ensemble dans la base ».
Confiance: « Si partie gauche de la rÚgle est vérifiée, probabilité
que la partie droite de la rÚgle soit vérifiée ».
Prétraitement:
Le prétraitement ici est de transformer tous les attributs numériques en
attributs catégoriques.
workflow de prétraitement
Paramétrage des attributs catégoriques
Les variables numérique qu'on
doit transformer sont:
le prix
nombre des kilomĂštres
parcourus
puissance
l'age
durée de vente
Le paramétrage des
intervalles choisie
se fait Ă  l'aide de
l'expression 'si alors'
de RapidMiner
Paramétrage des intervalles de prix
26
Exécution:
L'exĂ©cution du modĂšle se fait grĂące Ă  une succession d’opĂ©rations
qui vise à discrétiser les données et les transformer en binomiale afin
de les passer sur l’interprĂ©tation des rĂšgles.
Association Rules Workflow
Association rules confidence
On a fait le paramĂ©trage des rĂšgles qui vont ĂȘtre
interprétées avec un minimum de confiance de
0.75. Travailler avec des niveaux de confiance
élevés nous aide à avoir des associations
logiques et pertinentes.
RĂ©sultat:
NƓuds des rùgles d’association NƓuds des rùgles d’association avec label
27
RÚgles d'association et les niveaux de confiance reliés
Le résultat obtenu se définie par le tableau suivant:
le résultat obtenu est 7 rÚgles d'association dont on interprÚte que:
Si le kilométrage est plus de 150 000 et l'age plus 15 ans le prix est
entre [1000,5000] euros.
Si l'age est plus de 15 ans alors le prix est entre [1000,5000[
Les rÚgles 7 et 6 sont combinés dans la régle 5.
Si le carburant est Essence(benzin) et le kilométrage est élevé alors le
prix est moins de 5000 euros.
Si l'age est élevé le kilométrage est élevé.
Si la puissance est moins de 100 chevaux alors elle est essence.
c- Régression linéaire:
La régression linéaire est une modélisation linéaire qui permet d'établir des
estimations dans le futur à partir d'informations provenant du passé. Dans ce
modÚle de régression linéaire, on a plusieurs variables dont une qui est une
variable explicative et les autres qui sont des variables expliquées.
Exécution:
l’exĂ©cution de la rĂ©gression linĂ©aire pour RapidMiner est facile ; il se fit de
naviguer vers l'onglet AutoModel et choisir 'prédict" et choisir le champs à
prédire :
Choisir la prédiction
28
Paramétrer les entrées
Choisir le modÚle de prédiction
RĂ©sultat:
Le résultat se traduit par le tableau des coefficient suivant :
tableau des coefficient
le tableau montre que tout les attributs choisis sont significatif(p-value = 0 ).
Donc on peut retenir les valeurs des coefficients pour la fonction linéaire
suivante:
Prix= 12 101.823 + 72.767 Puissance - 0.060 kilometrage - 539.065 age
29
L'effet de la puissance et de
l'age sont contradictoire sur la
prédiction. Ceci est traduit par
le graphique Ă  droite.
l'un des avantages de l'auto Model
est d'avoir un simulateur pour
prédire des conditions souhaitées.
simulator interface
L'age et le kilométrage augmente le prix diminue.
la puissance augmente le prix augmente aussi.
30
Comparaison et
interprétations:
La validation de chaque se fait différente de l'autre puisque on fait différentes
type de datamining. Le résultat obtenu joue un rÎle important pour la
détermination de la validité de chaque model interprété mais pas par rapport
aux autres. Les interprétations des différents modÚles peut faire la
comparaison entre ces différents algorithmes.
L'analyse des composantes principales nous aider à représenté les données
sur trois dimensions , le résultat obtenu de l'ACP n'a pas pratiquement
expliqué la variation de prix. Le but de l'ACP de réduire la taille des données
en faisant un fusion entre les différentes variables, ce qui a engendré trois
dimensions qui n'ont pas bien expliqué la concentration de données.
Les Clustering k-means et les rĂšgles d'association nous a aider mieux
segmenter et classifier les données, à avoir des groupes homogÚnes et bien
identifier les différentes rÚgles à les segmenter.
La régression linéaire nous a aidé à avoir une idée et clarifier de quoi dépend
le prix d'une voiture.
Tout les modÚles confirment que plus la voiture est ùgée plus sa valeur
diminue, plus le kilométrage augmente plus le prix diminue , plus la voiture est
puissante plus elle est chĂšre.
31
La limousine, la kombi et la kleinwagen sont les types de véhicules les plus
populaires sur le marché de l'occasion. Les voitures les plus chÚres sont les
SUV, tandis que les moins chĂšres sont les kleinwagens.
En moyenne, le type de véhicule Kleinwagen est le moins cher et le moteur le
moins puissant. Mais cela montre aussi les valeurs les plus aberrantes - peut-
ĂȘtre en raison de la diversitĂ© des modĂšles de marques.
Les marques les plus populaires sont Volkswagen, BMW, Opel, Mercedes,
Audi, Ford, Renault, Peugeot, Fiat et Seat. Ces 10 marques correspondent Ă 
prĂšs de 80% des voitures. (À l'origine, notre jeu de donnĂ©es contient environ
40 marques).
Selon notre analyse de régression, l'ùge (39%), le kilomÚtre (23%) et la
puissance du moteur (% 19) sont les facteurs les plus importants expliquant le
prix de l'occasion.
Sur le marché de l'occasion, la plupart des voitures dépassent 100 000 km,
voire 150 000 km. Les gens ne changent pas souvent de voiture selon notre
ensemble de données.
La majorité des voitures d'occasion ne sont vendues que dans les 35 jours. Le
ratio des 10 premiers jours (le jour 0 correspond Ă  la vente le jour mĂȘme) est
assez élevé. Cela nous montre qu'Ebay-Kleinanzeigen réussit trÚs bien à
cibler les clients ou que le marché de l'occasion est plus fluide que nous le
pensions.
32
Références:
https://rapidminer.com/
https://www.kaggle.com/orgesleka/used-cars-database/home
https://www.researchgate.net/publication/304265468_Comparaison_de_tec
hniques_de_Data_Mining_pour_l'adaptation_statistique_des_previsions_d'
ozone_du_modele_de_chimie-transport_MOCAGE
https://www.xlstat.com/fr/solutions/fonctionnalites/analyse-des-
correspondances-multiples-acm-ou-afcm
https://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l-
information-th9/bases-de-donnees-42309210/extraction-de-connaissances-
a-partir-de-donnees-ecd-h3744/
https://www.lebigdata.fr/data-mining-definition-exemples
http://iml.univ-mrs.fr/~reboul/ADD3-MAB.pdf
https://www.xlstat.com/fr/solutions/fonctionnalites/analyse-en-
composantes-principales-acp
https://explorable.com/fr/la-correlation-statistique

Weitere Àhnliche Inhalte

Was ist angesagt?

Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidAmal Abid
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0Alexandre Bodin
 
Rapport de stage de perfectionnement - Mahmoudi Mohamed Amine
Rapport de stage de perfectionnement - Mahmoudi Mohamed AmineRapport de stage de perfectionnement - Mahmoudi Mohamed Amine
Rapport de stage de perfectionnement - Mahmoudi Mohamed AmineMohamed Amine Mahmoudi
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Rapport du Projet de Fin d'année Génie informatique
Rapport du Projet de Fin d'année Génie informatique Rapport du Projet de Fin d'année Génie informatique
Rapport du Projet de Fin d'année Génie informatique ayoub daoudi
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Rapport pfe
Rapport pfeRapport pfe
Rapport pfeAhmed rebai
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Haytam EL YOUSSFI
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
 
Rapport de stage: mastĂšre ISIC (Business Intelligence)
Rapport de stage: mastĂšre ISIC (Business Intelligence)Rapport de stage: mastĂšre ISIC (Business Intelligence)
Rapport de stage: mastĂšre ISIC (Business Intelligence)Ines Ben Kahla
 

Was ist angesagt? (20)

Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Un introduction Ă  Pig
Un introduction Ă  PigUn introduction Ă  Pig
Un introduction Ă  Pig
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Rapport de stage de perfectionnement - Mahmoudi Mohamed Amine
Rapport de stage de perfectionnement - Mahmoudi Mohamed AmineRapport de stage de perfectionnement - Mahmoudi Mohamed Amine
Rapport de stage de perfectionnement - Mahmoudi Mohamed Amine
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Une introduction Ă  MapReduce
Une introduction Ă  MapReduceUne introduction Ă  MapReduce
Une introduction Ă  MapReduce
 
Rapport du Projet de Fin d'année Génie informatique
Rapport du Projet de Fin d'année Génie informatique Rapport du Projet de Fin d'année Génie informatique
Rapport du Projet de Fin d'année Génie informatique
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Rapport pfe
Rapport pfeRapport pfe
Rapport pfe
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Pfe
PfePfe
Pfe
 
Rapport de stage: mastĂšre ISIC (Business Intelligence)
Rapport de stage: mastĂšre ISIC (Business Intelligence)Rapport de stage: mastĂšre ISIC (Business Intelligence)
Rapport de stage: mastĂšre ISIC (Business Intelligence)
 

Ähnlich wie Apprentissage automatique avec RapidMiner

SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunk
 
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...MongoDB
 
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...OCTO Technology
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Les cas d’usages populaires de Neo4j
Les cas d’usages populaires de Neo4jLes cas d’usages populaires de Neo4j
Les cas d’usages populaires de Neo4jNeo4j
 
20120124 05 - Le Model-based Testing aujourd'hui (Inria)
20120124 05 - Le Model-based Testing aujourd'hui (Inria)20120124 05 - Le Model-based Testing aujourd'hui (Inria)
20120124 05 - Le Model-based Testing aujourd'hui (Inria)LeClubQualiteLogicielle
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptxazzazrachid1
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestMimoun Kissi đŸ€–
 
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc Divad
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc DivadXebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc Divad
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc DivadPublicis Sapient Engineering
 
Gestion ddes risques
Gestion ddes risquesGestion ddes risques
Gestion ddes risquesNicolas CHARROUX
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
IODS : Retour d’expĂ©riences au sein du Center for Data Science
IODS : Retour d’expĂ©riences au sein du Center for Data ScienceIODS : Retour d’expĂ©riences au sein du Center for Data Science
IODS : Retour d’expĂ©riences au sein du Center for Data ScienceBorderCloud
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic COMPETITIC
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceWalid Chamour
 

Ähnlich wie Apprentissage automatique avec RapidMiner (20)

SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
 
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
 
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT 
 Comment mettre en musique les big data et valo...
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Les cas d’usages populaires de Neo4j
Les cas d’usages populaires de Neo4jLes cas d’usages populaires de Neo4j
Les cas d’usages populaires de Neo4j
 
20120124 05 - Le Model-based Testing aujourd'hui (Inria)
20120124 05 - Le Model-based Testing aujourd'hui (Inria)20120124 05 - Le Model-based Testing aujourd'hui (Inria)
20120124 05 - Le Model-based Testing aujourd'hui (Inria)
 
Big data
Big dataBig data
Big data
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
 
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc Divad
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc DivadXebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc Divad
XebiCon'17 : Déploiement continu de modèle de Machine Learning - Loïc Divad
 
Gestion ddes risques
Gestion ddes risquesGestion ddes risques
Gestion ddes risques
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Neo4j et ses cas d'usages
Neo4j et ses cas d'usagesNeo4j et ses cas d'usages
Neo4j et ses cas d'usages
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
IODS : Retour d’expĂ©riences au sein du Center for Data Science
IODS : Retour d’expĂ©riences au sein du Center for Data ScienceIODS : Retour d’expĂ©riences au sein du Center for Data Science
IODS : Retour d’expĂ©riences au sein du Center for Data Science
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 

Apprentissage automatique avec RapidMiner

  • 1. DATAMINIG SUR EBAY- KLEINANZEIGEN  PROJET DE DATAMING HANNACHI MAJDI R É A L I S É P A R : Statistiques descriptives , clustering et prĂ©diction majdi_hannachi@outlook.fr
  • 2. 2 Sommaire: . Contexte.....................................................................3 Énonce du projet......................................................4 Source de donnĂ©es..................................................5 Environnement de travail......................................7 RapidMiner.................................................................8 PrĂ©traitement des donnĂ©es................................11 Statistiques descriptives.....................................14 Etude statistique....................................................18 Extraction des connaissances Ă  partir des donnĂ©es.....................................................................22 Comparaison et interprĂ©tation..........................30
  • 3. 3 Contexte: Selon Forbes, le secteur de l'automobile a connu une croissance massive de 68% depuis son passage Ă  un creux lors de la crise financiĂšre mondiale de 2009, selon un rapport publiĂ© par la sociĂ©tĂ© de ventes aux enchĂšres automobile Manheim au dĂ©but de cette annĂ©e. Le troisiĂšme trimestre de 2016 a clĂŽturĂ© avec 9,8 millions de vĂ©hicules vendus sur le marchĂ© des vĂ©hicules d'occasion, soit une augmentation de 3,3% par rapport Ă  l'annĂ©e prĂ©cĂ©dente. En outre, le vĂ©hicule moyen vendu au dĂ©tail s'est vendu 19,232 $ au troisiĂšme trimestre de 2016, soit une augmentation de 4,3% par rapport Ă  l'annĂ©e derniĂšre. Cette augmentation des valeurs globales est alimentĂ©e par le plus jeune Ăąge (4,0 ans en moyenne) des vĂ©hicules vendus chez les concessionnaires franchisĂ©s. Les changements de comportement d'achat de voitures neuves commencent Ă  modifier le paysage des vĂ©hicules d'occasion franchisĂ©s. Ainsi, les entreprises de vĂ©hicules d'occasion franchisĂ©es et d’autres grandes places de marchĂ© en ligne comme E-Bay tirent parti du taux de croissance de l’industrie des voitures d’usage. Nous Ă  l'occasion de faire un projet collective par binĂŽme suggĂ©rĂ© par notre enseignante Ă  l'Institut supĂ©rieur des Ă©tudes technologiques de RadĂšs Madame Hind eloui, on a donc essayĂ© de comprendre ce marchĂ© et sa dynamique Ă  l’aide du dataset ‘Used Car Database’ publiĂ© sur la plateforme de DataScience de Kaggle.com en exĂ©cutant des algorithmes de Datamining descriptifs et prĂ©dictifs en se mettant Ă  la place d'un acheteur et un annonceur.
  • 4. 4 EnoncĂ© du Projet: 1- Objectif: Appliquer le processus d’Extraction des Connaissances Ă  partir des donnĂ©es (ECD) sur un cas pratique en utilisant diffĂ©rents algorithmes de Data Mining. 2- Travail Ă  faire: Choisir une base (assez volumineuse) DĂ©crire la base (en faisant des recherches) Etude statistique: Appliquer une mĂ©thode statistique pour l’analyse de donnĂ©es. Visualiser les rĂ©sultats. Commenter, interprĂ©ter les rĂ©sultats. Tirer les conclusions Extraction des connaissances Ă  partir des donnĂ©es: Identifier le problĂšme. PrĂ©parer les donnĂ©es (prĂ©traitements) Utiliser plusieurs techniques de Data Mining pour extraire les connaissances et explorer des modĂšles. Visualisation des rĂ©sultats. Comparaison et interprĂ©tation des rĂ©sultats obtenus. Comparaison entre la mĂ©thode statistique et les techniques de Data Mining. RĂ©daction de rapport.
  • 5. 5 Source de donnĂ©es: Kaggle est une plateforme web organisant des compĂ©titions en science des donnĂ©es. L'entreprise a Ă©tĂ© crĂ©Ă©e en 2010 par Anthony Goldbloom. Sur cette plateforme, les entreprises proposent des problĂšmes en science des donnĂ©es et offrent un prix aux datalogistes obtenant les meilleures performances. eBay est une entreprise amĂ©ricaine de courtage en ligne, connue par son site web de ventes aux enchĂšres du mĂȘme nom. Elle a Ă©tĂ© crĂ©Ă©e en 1995 par le Français Pierre Omidyar.Parmis les artices qui se vent on trouve les voitures d'occasion Le dataset Ă©tait publiĂ© le 28/11/2016 sur kaggle par le data analyste et le mathĂ©maticien chez Statistik Beratung , Orges Leka. Profil: www.kaggle.com/orgesleka Le dataset est un fichier csv intitulĂ© 'autos' contenant plus de 370 000 vĂ©hicules qui ont Ă©tĂ© vendus au enchĂšres sur ebay de taille 65 MB. 1- Fichier source: 2- Kaggle: 3- eBay:
  • 6. 6 4- description du fichier: Le fichier source Autos.csv est un fichier de type CSV contenant un tableau de donnĂ©es concernant 371 824 lignes et 20 colonnes dĂ©crivant les caractĂ©ristiques d'une voiture ainsi que l'annonce dont on trouve sur ebay de l'Allemagne. Ces attribues ce traduit selon ci-dessous: dateCrawled : la date de publication name : nom de la voiture (titre de l'annonce) seller : (privĂ© ou concessionnaire ) offerType: offre ou pĂ©tition price : prix de la voiture en euro abtest: test ou contrĂŽle vehicleType: type de vĂ©hicule yearOfRegistration : l'annĂ©e dont la voiture est construite gearbox: type de transmission powerPS : puissance de la voiture model: modĂšle de la voiture kilometer : kilomĂ©trĂ©s traversĂ©s par la voiture monthOfRegistration :le mois dans la voiture est construite fuelType: type de carburant brand: marque notRepairedDamage :si la voiture est endommagĂ© dateCreated : date de crĂ©ation de l'annonce nrOfPictures : nombre d'images postalCode lastSeenOnline : derniĂšre vu (la derniĂšre vu est considĂ©rĂ© comme date de vente de la voiture)
  • 7. 7 Environnement de travail: Majdi Hannachi junior Data-Scientist Etudiant en M2BI Ă  ISET RADES Ram 4 Go Disque dur 1T Processeur 6Ă©me generation i5
  • 8. 8 RapidMiner: RapidMiner est une plate-forme logicielle de science des donnĂ©es dĂ©veloppĂ©e par la sociĂ©tĂ© du mĂȘme nom, payante, qui fournit un environnement intĂ©grĂ© pour la prĂ©paration de donnĂ©es, l'apprentissage automatique, l'apprentissage en profondeur, l'exploration de texte et l'analyse prĂ©dictive. RapidMiner possĂšde un outil de prĂ©paration de donnĂ©es multifonctionnel qui aide Ă  faire tout type de prĂ©paration de donnĂ©es que ce soit nettoyage de donnĂ©es ou transformation de donnĂ©es, ainsi que des outils de visualisation de avec une grandes diversitĂ© de diagrammes. RapidMiner propose une interface graphique conviviale avec un ensemble de fonctionnalitĂ©s qui peut traiter et appliquer tout type d'apprentissage automatiques supervisĂ© et non supervisĂ© afin de classifier les donnĂ©es, prĂ©dire et mĂȘme dĂ©tecter les valeurs aberrantes. RapidMiner prĂ©sente aussi des outils pour la validation des algorithmes interprĂ©tĂ©s avec diverse type de validation tout dĂ©pend du type de l'algorithme, et offre aussi une interface de simulation afin de dĂ©ployer le clustering ou la prediction en tant que utilisateur 1- PrĂ©sentation: 2- Services:
  • 9. 9 FonctionnalitĂ©s de RapidMiner: AccĂ©s Ă  tous type de donnĂ©es que ce soit des donnĂ©es enregistrĂ© sur des fichiers ou bien des donnĂ©es hĂ©bergĂ©es sur une base de donnĂ©es externe sql et NoSql. Des outils de dĂ©couverte de donnĂ©es avec une bibliothĂ©ques riches de diagrammes pour l'exploration de donnĂ©es et pour assister la statistique descriptives Multiples outils et fonctionnalitĂ©s pour entrer les prĂ©parations nĂ©cessaires Ă  fin de transformer les donnĂ©es et les organiser pour le dĂ©ploiement des algorithmes de l'apprentissage automatique. Ensemble de composantes de worlflow pour faire tout type de filtrage et de nettoyage des donnĂ©es Ă  fin de les prĂ©parer pour les algorithmes. Faire la construction des modelĂ©s et les paramĂ©trer selon les besoins du modĂšle choisi et faire la livraison des modĂšles plus rapide. Valider le modĂšle avec les nombreux outils de validation disponibles pour voir la performance du modĂšle et les taux d'erreur produites. L'interface de RapidMiner est basĂ© sur le principe de Drag & Drop et la modĂ©lisation du dĂ©marche de dataming, ce principe est dĂ©fini par Visual workflow designer avec lequel on fait le dĂ©signe de notre prototype. Les diffĂ©rents fonctionnalitĂ©s de RapidMiner se traduit dans ces six modules: 1-Principe: 2-FonctionnalitĂ©s:
  • 10. 10 Pourquoi RapidMiner? Visual workflow designer accĂ©lĂšre le prototypage et la validation des modĂšles prĂ©dictifs, avec des connexions prĂ©dĂ©finies, des modĂšles intĂ©grĂ©s et des flux de travail rĂ©pĂ©tables. BibliothĂšque riche de plus de 1500 algorithmes et fonctions d'apprentissage automatique pour crĂ©er le modĂšle prĂ©dictif le plus puissant possible, quel que soit le cas d'utilisation Ouvert et extensible pour une intĂ©gration facile avec les applications existantes, les donnĂ©es et les langages de programmation tels que Python et R DĂ©sormais avec Auto Model et Turbo Prep: RapidMiner Auto Model utilise l'apprentissage automatique pour accĂ©lĂ©rer chaque Ă©tape du cycle de vie de la construction d'un modĂšle. Avec RapidMiner Turbo Prep, tout le monde, des analystes aux scientifiques de donnĂ©es, peut facilement transformer, faire pivoter et mĂ©langer des donnĂ©es provenant de sources multiples en quelques clics. 1- Avantages: 2- Comparaison avec autres outils:
  • 11. 11 PrĂ©traitement des donnĂ©es: 1-Principe: Le prĂ©traitement concerne la mise en forme des donnĂ©es entrĂ©es selon leur type (numĂ©rique, symbolique, image, texte, son), ainsi que le nettoyage des donnĂ©es, le traitement des donnĂ©es manquantes, la sĂ©lection d’attributs ou la sĂ©lection d’instances. Cette premiĂšre phase est cruciale car du choix des descripteurs et de la connaissance prĂ©cise de la population va dĂ©pendre la mise au point des modĂšles de prĂ©diction. L’information nĂ©cessaire Ă  la construction d’un bon modĂšle de prĂ©vision peut ĂȘtre disponible dans les donnĂ©es mais un choix inappropriĂ© de variables ou d’échantillons d’apprentissage peut faire Ă©chouer l’opĂ©ration. 2-Nettoyage des donnĂ©es: Pour le dataset 'autos' , on doit faire la sĂ©lection des attributs pertinentes qui se coĂŻncide avec l'analyse de la valeur du voiture ainsi que de l’annonce, Avec le composant 'Select Attributes' on fait la sĂ©lection des attributs suivants: Processus de nettoyage
  • 12. 12 On abondonne tout les attributs qui avec une stabilitĂ© plus de 95% avec le filtre Remove useless Attributes et on fait la gĂ©nĂ©ration des jours de ventes. Puis on se fait dĂ©barrasser des valeurs manquantes grĂ ces au composent 'no_missing_values'. Ensuite on fait le filtrage des donnĂ©es selon les principes suivants: Le filtrage ici est basĂ© sur la logique d'un acheteur qui ne voulait pas une voiture trĂšs ĂągĂ©e , avec un nombre de kilomĂ©tres traversĂ©s qui est ne traduit pas une voiture neufs ou une voiture en Ă©tat endommagĂ© avec un prix raisonnable et une puissance acceptable.Ce processus nous aide Ă  se dĂ©barrasser un valeur aberrantes.
  • 13. 13 Enfin , on termine le processus de nettoyage par la suppression des lignes dupliquĂ©s selon les attributs suivantes: 3- RĂ©sultat: Le processus de prĂ©traitement nous a aidĂ© Ă  se dĂ©barrasser de plus 180 000 valeurs manquantes, supprimer 8 colonnes qui n'ont aucun intĂ©rĂȘt pour l'analyse. Donc notre dataset s'est transformĂ© en: - 12 colonnes - 218 699 ligne - 8.7 Mb de taille
  • 14. 14 Statistiques descriptives: 1- Objectif: L'objectif de cette analyse descriptif des donnĂ©es et de mieux connaitre les differentes aspects du dataset et de mieux comprendre les differentes tendances prĂ©sentĂ©es par les variable pertinentes. 2- Analyse des variables: distribution de la marque de voiture Ce diagramme nous montre que la marque plus publiĂ© sur le site de ebay est volkswagen avec plus de 45 000 annonce puis on trouve BMW et mercedes benz. Dans ce data set on trouve 40 marques de voiture ceci est traduit par le nombre des modalitĂ©s de l'attribut Brand. a- Brand: b- VehiculeType: distribution de type de voiture On trouve alors que les voiture berline (limousine), break (kombi) et les petites voitures (keinwagen) sont les types les plus publiĂ©s et les plus vendu sur ebay avec un nombre totale de plus de 150 000 publication.
  • 15. 15 c- GearBox: rĂ©partition du Gearbox sur la population Le graphique fait clarifie que la majoritĂ© de population (3/4 des annonces) ont la transmission manuelle et le reste de transmission automatique. c- FuelType: Le bar-chart nous prĂ©sente que le type de carburant les utilisĂ©s sont l'essence (benzin) et le diesel sur une somme de plus de 200 000 lignes. Distribution de type de carburant sur la population d- PowerPs: histogramme de rĂ©partition de puissance La moyenne et le mĂ©dian de cette distribution est autour de 105 ainsi que la plupart de la population se focalise entre 30 et 250 chevaux vapeurs.
  • 16. 16 e- Kilometer: Histogramme des kilomĂ©trĂ©s traversĂ© par les voitures On voit ici que la concentration des donnĂ©es et vocalisĂ© sur plus de 100 000 km et plus particuliĂšrement les voitures qui ont 150 000 de km dans sur le compteur. e- age: Distribution selon l'age On trouve ici une distribution normal dont la moyenne et le mĂ©dian sont autout de 14 ans.
  • 17. 17 2- Analyse de la corrĂ©lation: workflow de visualisation de la matrice de corrĂ©lation Une matrice de corrĂ©lation est utilisĂ©e pour Ă©valuer la dĂ©pendance entre plusieurs variables en mĂȘme temps. Le rĂ©sultat est une table contenant les coefficients de corrĂ©lation entre chaque variable et les autres. Ceci se fait par le composant de RapidMiner CorrĂ©lation Matrix comme indiquĂ© ci dessous: Le paramĂ©trage se fait par la sĂ©lection des attributs Ă  apparaĂźtre dans la matrice. Le rĂ©sultat obtenu est le tableau suivant: matrice de corrĂ©lation On a une faible corrĂ©lation entre la durĂ©e de vente et le prix. Pas de relation entre ses deux variables. Une corrĂ©lation moyenne nĂ©gative entre le nombre de kilomĂštres parcourus et le prix. Plus le KilomĂ©trage augmente plus le prix diminue. Une corrĂ©lation positive moyenne entre la puissance et le prix. Plus la puissance augmente le prix augmente. InterprĂ©tation:
  • 18. 18 Etude statistique: 1- Objectif: L'objectif absolu d'une Ă©tude statistique est d’identifier un phĂ©nomĂšne, le dĂ©crire et mĂȘme parfois Ă©numĂ©rer ses raison. Pour ce cas, on veut caractĂ©risĂ© le phĂ©nomĂšne de vente au enchĂšre des voiture et avoir une explication sur les diffĂ©rentes catĂ©gories de prix. 2- L'analyse: Pour cela, on va faire une Analyse en Composantes Principales (ACP) sur notre ensemble de donnĂ©es. a- DĂ©finition: L'Analyse en Composantes Principales (ACP) est l'une des mĂ©thodes d'analyse de donnĂ©es multivariĂ©es les plus utilisĂ©es. Elle permet d’explorer des jeux de donnĂ©es multidimensionnels constituĂ©s de variables quantitatives. b- Principe: L'Analyse en Composantes Principales peut ĂȘtre considĂ©rĂ©e comme une mĂ©thode de projection qui permet de projeter les observations depuis l'espace Ă  p dimensions des p variables vers un espace Ă  k dimensions (k < p) tel qu'un maximum d'information soit conservĂ©e (l'information est ici mesurĂ©e au travers de la variance totale du nuage de points) sur les premiĂšres dimensions. Si l'information associĂ©e aux 2 ou 3 premiers axes reprĂ©sente un pourcentage suffisant de la variabilitĂ© totale du nuage de points, on pourra reprĂ©senter les observations sur un graphique Ă  2 ou 3 dimensions, facilitant ainsi grandement l'interprĂ©tation.
  • 19. 19 Workflow de ACP Sur RapidMiner pour mener une ACP(PCA en anglais) il faut choisir le composant PCA : c- Application et resultats: L’exĂ©cution de ce workflow nous a montrer les resultat suivantes: tableau de la variance cumulatives test de coude: variance cumulative Le premier axe conserve 44% de l’inertie du nuage. Il est peu probable qu’il soit dĂ» au hasard. Le second axe conserve une part de l’inertie totale de 22%. La chute est importante dĂšs le troisiĂšme axe qui ne conserve plus que 22% de l’inertie totale. On peut dĂ©cider de ne retenir que les trois premiers axes (le premier plan factoriel) car il comprĂ©hensible par l’Ɠil (c’est un plan) et ne dĂ©forme pas trop le nuage (il explique 82% de l’inertie du nuage)
  • 20. 20 Eigenvectors Maintenant on va analyser les principaux composantes de chaque vecteur Ă  l'aide du table suivant: L’interprĂ©tation des nouvelles variables (des axes factoriel) se fera Ă  l’aide des individus et variables contribuant le plus Ă  l’axe avec la rĂšgle suivante : si une variable a une forte contribution positive Ă  l’axe, les individus ayant une forte contribution positive Ă  l’axe sont caractĂ©risĂ©s par une valeur Ă©levĂ©e de la variable. Pour PC1: l'age (0.538) et le prix (price , -0.598) contribuent avec l'axe; plus la valeur est Ă©levĂ©e plus le prix diminue et plus l'age augmente. Pour PC2: la puissance (powerPS, 0.769 ) contribue avec l'axe; plus la valeur est Ă©levĂ©e plus la puissance est Ă©levĂ©e. Pour PC3: la durĂ©e de vente (sold_days , 0.988) contribue bien avec l'axe; valeur est Ă©levĂ©e plus le nombre de jours est Ă©levĂ©e. Pour la variable kilometer, on ne peut pas juger car les deux valeurs sur les deux premiers axes sont presque la mĂȘme (0.474 , 0.509).
  • 21. 21 Pour prĂ©senter le resultat, on besoin d'un graphique de trois dimensions comme prĂ©sentĂ© ci-dessous: PrĂ©sentation du nuage des donnĂ©es Le nuage des points est prĂ©sentĂ© au milieu de l'axe d'ou les voitures sont de valeur autour de la moyenne (8010 euro) et l'age varie autour de 12 ans. La puissance des voitures est concentrĂ© dans la marge de l'origine 0 d'ou aussi il y'a une concentration des donnĂ©es autour du moyenne 105 avec une prĂ©sence de quelques valeurs aberrantes prĂ©sentĂ©es Ă  gauche de l'axe avec les voitures puissantes. La concentration du nuage est prĂ©sentĂ©e autour de -1 donc les voitures en gĂ©nĂ©rale se vendent vite dĂ©s la premiĂšre semaine (moyenne = 9 jours). Les vĂ©hicules puissantes se vente mal puisque il sont chĂšre et mĂȘme interprĂ©tation pour les vĂ©hicules ĂągĂ©es puissantes.
  • 22. 22 Extraction des connaissances Ă  partir des donnĂ©es 1- PrĂ©sentation: a- Datamining: Forage de donnĂ©es, explorations de donnĂ©es ou fouilles de donnĂ©es, ce sont les traductions possibles du data mining en Français. En rĂšgle gĂ©nĂ©rale, le terme Data Mining dĂ©signe l’analyse de donnĂ©es depuis diffĂ©rentes perspectives et le fait de transformer ces donnĂ©es en informations utiles, en Ă©tablissant des relations entre les donnĂ©es ou en repĂ©rant des patterns. Ces informations peuvent ensuite ĂȘtre utilisĂ©es par les entreprises pour augmenter un chiffre d’affaires ou pour rĂ©duire des coĂ»ts. Elles peuvent Ă©galement servir Ă  mieux comprendre une clientĂšle afin d’établir de meilleures stratĂ©gies marketing... b- ECD: L’ECD est un processus complexe qui se dĂ©roule suivant une suite d’opĂ©rations. Des Ă©tapes de prĂ©traitement ont lieu avant le « data mining » proprement dit. Le prĂ©traitement porte sur l’accĂšs aux donnĂ©es en vue de construire des « datamarts », des corpus de donnĂ©es spĂ©cifiques. Le prĂ©traitement concerne la mise en forme des donnĂ©es entrĂ©es selon leur type (numĂ©rique, symbolique, image, texte, son), ainsi que le nettoyage des donnĂ©es, le traitement des donnĂ©es manquantes, la sĂ©lection d’attributs ou la sĂ©lection d’instances. Cette premiĂšre phase est cruciale car du choix des descripteurs et de la connaissance prĂ©cise de la population va dĂ©pendre la mise au point des modĂšles de prĂ©diction. L’information nĂ©cessaire Ă  la construction d’un bon modĂšle de prĂ©vision peut ĂȘtre disponible dans les donnĂ©es mais un choix inappropriĂ© de variables ou d’échantillons d’apprentissage peut faire Ă©chouer l’opĂ©ration.
  • 23. 23 2- ProblĂ©matique: Le dataset utilisĂ© ait une quantitĂ© de donnĂ©es vaste qui dĂ©crit le marchĂ© des enchĂšres pour la ventes des voitures d'occasion. Comprendre le domaine et tous ses atouts est un facteur majeur pour tout type de participant direct ou indirect dans le marchĂ©. Pour cela on va mener un processus de ECD dont on va appliquer diverse mĂ©thodes de machine learning et de dataming Ă  fin de : Connaitre les diffĂ©rents segments du marchĂ©s. Classifier les voitures selon la valeur Ă  fin d'optimiser l'achat. PrĂ©dire la durĂ©e de vente pour tout annonceur. Alors on va utiliser des algorithmes de classification ( k-means , rĂšgles d'association) et des algorithmes de prĂ©diction (rĂ©gression linĂ©aire..) 3- Mise en oeuvre: a- Clustering K-means: La mĂ©thode des k-means est un outil de classification classique qui permet de rĂ©partir un ensemble de donnĂ©es en classes homogĂšnes. Dans le cadre de la classification non supervisĂ©e, on cherche gĂ©nĂ©ralement Ă  partitionner l'espace en classes concentrĂ©es et isolĂ©es les unes des autres. Dans cette optique, l'algorithme des k-means vise Ă  minimiser la variance intra-classe. PrĂ©traitement: Pour avoir une segmentation k-means fiable, on doit travailler avec des attributs numĂ©riques normalisĂ©s qui sont pertinente Ă  l'analyse. Les attributs sont: l'age de la voiture le prix le kilomĂ©trage parcouru la puissance Workflow de prĂ©traitement pour le clustering k-means
  • 24. 24 ExĂ©cution: Sur Rapidminer, la interprĂ©tation du modĂ©le se fait grace au composent 'clustering' dont on paramĂ©tre la methode de calcule de distance (euclidienne) . k means clustering component rĂ©sultat du clustering rĂ©sultat: Cluster 0 : 45 025 instances Cluster 1 : 100 058 instances Cluster 2 : 59 885 instances Cluster 3 : 13 731 instances Cluster 0 : prix moyen , puissance faible , kilomĂ©trage faible, age faible : ceux sont des voiture 'daily' qui sont rĂ©cemment achetĂ©es Cluster 1 : voitures ĂągĂ©es avec un kilomĂ©trage Ă©levĂ© de prix faible Cluster 2 : voitures puissantes avec un kilomĂ©trage Ă©levĂ© Cluster 3 : voiture puissante et nouvelles (sport et luxueuse)
  • 25. 25 b- RĂ©gles d'association: La recherche des rĂšgles d'association est une mĂ©thode populaire Ă©tudiĂ©e d'une maniĂšre approfondie dont le but est de dĂ©couvrir des relations ayant un intĂ©rĂȘt pour le statisticien entre deux ou plusieurs variables stockĂ©es dans de trĂšs importantes bases de donnĂ©es. X -> Y oĂč X et Y sont des ensembles d’items disjoints. Condition: Partie gauche de la rĂšgle. ConsĂ©quence: Partie droite de la rĂšgle. Support, frĂ©quence: « Partie gauche et droite sont prĂ©sentes ensemble dans la base ». Confiance: « Si partie gauche de la rĂšgle est vĂ©rifiĂ©e, probabilitĂ© que la partie droite de la rĂšgle soit vĂ©rifiĂ©e ». PrĂ©traitement: Le prĂ©traitement ici est de transformer tous les attributs numĂ©riques en attributs catĂ©goriques. workflow de prĂ©traitement ParamĂ©trage des attributs catĂ©goriques Les variables numĂ©rique qu'on doit transformer sont: le prix nombre des kilomĂštres parcourus puissance l'age durĂ©e de vente Le paramĂ©trage des intervalles choisie se fait Ă  l'aide de l'expression 'si alors' de RapidMiner ParamĂ©trage des intervalles de prix
  • 26. 26 ExĂ©cution: L'exĂ©cution du modĂšle se fait grĂące Ă  une succession d’opĂ©rations qui vise Ă  discrĂ©tiser les donnĂ©es et les transformer en binomiale afin de les passer sur l’interprĂ©tation des rĂšgles. Association Rules Workflow Association rules confidence On a fait le paramĂ©trage des rĂšgles qui vont ĂȘtre interprĂ©tĂ©es avec un minimum de confiance de 0.75. Travailler avec des niveaux de confiance Ă©levĂ©s nous aide Ă  avoir des associations logiques et pertinentes. RĂ©sultat: NƓuds des rĂšgles d’association NƓuds des rĂšgles d’association avec label
  • 27. 27 RĂšgles d'association et les niveaux de confiance reliĂ©s Le rĂ©sultat obtenu se dĂ©finie par le tableau suivant: le rĂ©sultat obtenu est 7 rĂšgles d'association dont on interprĂšte que: Si le kilomĂ©trage est plus de 150 000 et l'age plus 15 ans le prix est entre [1000,5000] euros. Si l'age est plus de 15 ans alors le prix est entre [1000,5000[ Les rĂšgles 7 et 6 sont combinĂ©s dans la rĂ©gle 5. Si le carburant est Essence(benzin) et le kilomĂ©trage est Ă©levĂ© alors le prix est moins de 5000 euros. Si l'age est Ă©levĂ© le kilomĂ©trage est Ă©levĂ©. Si la puissance est moins de 100 chevaux alors elle est essence. c- RĂ©gression linĂ©aire: La rĂ©gression linĂ©aire est une modĂ©lisation linĂ©aire qui permet d'Ă©tablir des estimations dans le futur Ă  partir d'informations provenant du passĂ©. Dans ce modĂšle de rĂ©gression linĂ©aire, on a plusieurs variables dont une qui est une variable explicative et les autres qui sont des variables expliquĂ©es. ExĂ©cution: l’exĂ©cution de la rĂ©gression linĂ©aire pour RapidMiner est facile ; il se fit de naviguer vers l'onglet AutoModel et choisir 'prĂ©dict" et choisir le champs Ă  prĂ©dire : Choisir la prĂ©diction
  • 28. 28 ParamĂ©trer les entrĂ©es Choisir le modĂšle de prĂ©diction RĂ©sultat: Le rĂ©sultat se traduit par le tableau des coefficient suivant : tableau des coefficient le tableau montre que tout les attributs choisis sont significatif(p-value = 0 ). Donc on peut retenir les valeurs des coefficients pour la fonction linĂ©aire suivante: Prix= 12 101.823 + 72.767 Puissance - 0.060 kilometrage - 539.065 age
  • 29. 29 L'effet de la puissance et de l'age sont contradictoire sur la prĂ©diction. Ceci est traduit par le graphique Ă  droite. l'un des avantages de l'auto Model est d'avoir un simulateur pour prĂ©dire des conditions souhaitĂ©es. simulator interface L'age et le kilomĂ©trage augmente le prix diminue. la puissance augmente le prix augmente aussi.
  • 30. 30 Comparaison et interprĂ©tations: La validation de chaque se fait diffĂ©rente de l'autre puisque on fait diffĂ©rentes type de datamining. Le rĂ©sultat obtenu joue un rĂŽle important pour la dĂ©termination de la validitĂ© de chaque model interprĂ©tĂ© mais pas par rapport aux autres. Les interprĂ©tations des diffĂ©rents modĂšles peut faire la comparaison entre ces diffĂ©rents algorithmes. L'analyse des composantes principales nous aider Ă  reprĂ©sentĂ© les donnĂ©es sur trois dimensions , le rĂ©sultat obtenu de l'ACP n'a pas pratiquement expliquĂ© la variation de prix. Le but de l'ACP de rĂ©duire la taille des donnĂ©es en faisant un fusion entre les diffĂ©rentes variables, ce qui a engendrĂ© trois dimensions qui n'ont pas bien expliquĂ© la concentration de donnĂ©es. Les Clustering k-means et les rĂšgles d'association nous a aider mieux segmenter et classifier les donnĂ©es, Ă  avoir des groupes homogĂšnes et bien identifier les diffĂ©rentes rĂšgles Ă  les segmenter. La rĂ©gression linĂ©aire nous a aidĂ© Ă  avoir une idĂ©e et clarifier de quoi dĂ©pend le prix d'une voiture. Tout les modĂšles confirment que plus la voiture est ĂągĂ©e plus sa valeur diminue, plus le kilomĂ©trage augmente plus le prix diminue , plus la voiture est puissante plus elle est chĂšre.
  • 31. 31 La limousine, la kombi et la kleinwagen sont les types de vĂ©hicules les plus populaires sur le marchĂ© de l'occasion. Les voitures les plus chĂšres sont les SUV, tandis que les moins chĂšres sont les kleinwagens. En moyenne, le type de vĂ©hicule Kleinwagen est le moins cher et le moteur le moins puissant. Mais cela montre aussi les valeurs les plus aberrantes - peut- ĂȘtre en raison de la diversitĂ© des modĂšles de marques. Les marques les plus populaires sont Volkswagen, BMW, Opel, Mercedes, Audi, Ford, Renault, Peugeot, Fiat et Seat. Ces 10 marques correspondent Ă  prĂšs de 80% des voitures. (À l'origine, notre jeu de donnĂ©es contient environ 40 marques). Selon notre analyse de rĂ©gression, l'Ăąge (39%), le kilomĂštre (23%) et la puissance du moteur (% 19) sont les facteurs les plus importants expliquant le prix de l'occasion. Sur le marchĂ© de l'occasion, la plupart des voitures dĂ©passent 100 000 km, voire 150 000 km. Les gens ne changent pas souvent de voiture selon notre ensemble de donnĂ©es. La majoritĂ© des voitures d'occasion ne sont vendues que dans les 35 jours. Le ratio des 10 premiers jours (le jour 0 correspond Ă  la vente le jour mĂȘme) est assez Ă©levĂ©. Cela nous montre qu'Ebay-Kleinanzeigen rĂ©ussit trĂšs bien Ă  cibler les clients ou que le marchĂ© de l'occasion est plus fluide que nous le pensions.
  • 32. 32 RĂ©fĂ©rences: https://rapidminer.com/ https://www.kaggle.com/orgesleka/used-cars-database/home https://www.researchgate.net/publication/304265468_Comparaison_de_tec hniques_de_Data_Mining_pour_l'adaptation_statistique_des_previsions_d' ozone_du_modele_de_chimie-transport_MOCAGE https://www.xlstat.com/fr/solutions/fonctionnalites/analyse-des- correspondances-multiples-acm-ou-afcm https://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l- information-th9/bases-de-donnees-42309210/extraction-de-connaissances- a-partir-de-donnees-ecd-h3744/ https://www.lebigdata.fr/data-mining-definition-exemples http://iml.univ-mrs.fr/~reboul/ADD3-MAB.pdf https://www.xlstat.com/fr/solutions/fonctionnalites/analyse-en- composantes-principales-acp https://explorable.com/fr/la-correlation-statistique