Comment faire parler les data des candidats ?

La Claque #9 - 5 avril 2017
Comment faire parler les data
des candidats ?

Hi! I am Jeremy Greze, data analyst at Dataiku
x 80
+
x 1
+ 80+
+
It’s Me!
It’s our software !!
+
I studied Maths, Economics and Marketing
Our (happy) customers

Le défi(très concret)
368 CVs
Contrainte:
Pas de traitement
manuel (#BigData)

La démarche
Les étapes de travail du Data Scientist
Acquisition et
compréhension
Préparation
donnée
Modélisation
Evaluation
Utilisation
(production)
CV
1
Fichiers de
résultats
Dashboard
/API…
Iteration 1
Iteration 2
Iteration n
CV
2
CV
n

Types des variables
But: construire des variables pour la modélisation
Quand les données peuvent
être catégorisées (une valeur
parmi une liste)
Exemples:
• Genre
• Nationalités
Quand c’est un nombre, avec une
relation d’ordre.
Exemples:
• Age
• Nombre de mots utilisés
Quand c’est du texte libre.
Exemples:
• Les expériences sur un CV
• …
OK pour la
modélisation
~OK pour la
modélisation
A transformer avant
modélisation

Types des variables
Petit exercice
Age d’un candidat (ex: 27 ans)
Pays de résidence (ex: France)
Code postal (ex: 75001)
Date (ex: 15 Janvier 1997)
Adresse email (ex: coucou@laclaque.fr)
Adresse (ex: 10 Rue Saint-Denis, Paris)
Lettre de motivation

Text mining
« Motivée, je souhaite
apporter mes
compétences à
l’entreprise »
motiv souhait
apport
compétenc
entrepris
#id motiv souhait compétec entrepris volontair
Candidat #1 1 1 1 1 0
Candidat #2 3 0 1 1 1

Variables construites
Extension du fichier (ex: pdf)
Longueur du CV (nombre de mots)
Domaine de l’email (ex:
gmail.com)
Code postal
Département
Présence de certains mots du
domaine académique (deug /
prepa / licence / master…)
Via Kudoz (oui ou non)
Text mining sur l’ensemble du CV

Master: 40%
Université: 27%
Licence: 22%
Prépa: 5%

Machine Learning
Le Machine Learning (apprentissage automatique en
français) met à disposition des techniques et algorithmes
pour répondre à des problèmes complexes sur les
données de façon automatique.
Le ML est une discipline qui se trouve à la frontière des
statistiques et mathématiques, de l’informatique, de
l’intelligence artificielle.
La Data Science, science de l’analyse des données, est
plus large que ML, comprend aussi la data visualisation
par exemple.
Le Deep Learning est un algorithme particulier du
Machine Learning.

Machine Learning
Illustration
Data
Prédiction
Clustering
X
Modélisation

Deux familles pour le Machine Learning
Prédiction Clustering
(segmentation)
But: Créer un modèle qui peut expliquer
(prédire) une variable cible
(en fonction de données existantes)
But: Séparer les données en groupes
(clusters) en fonction de leur similarité
Exemples:
• Prédire la longueur d’un CV
• Prédire qu’un candidat sera pris en
entretien
Exemples:
• Segmenter les candidats en fonction de leurs CVs
• Segmenter les candidats en fonction des
interactions avec le recruteur
Algorithmes:
• Régressions (linéaires, logistiques…)
• Arbres de décisions (Random Forest…)
Algorithmes:
• K-Means
• Hierarchical

Exemple de résultats d’une segmentation
25 personnes
68% ont un master
Il y a des mots en anglais
530 mots en moyenne
60% viennent de Kudoz
Ils utilisent plus
« gmail.com »
Kmeans avec 3 clusters
262 personnes
25% ont un master
Il y a des mots comme
« informatique », « internet »
258 mots en moyenne
Ils sont assez divers dans les
emails.
78 personnes
60% ont un master
Il y a des mots comme
« ingénieur », « reseau »
487 mots en moyenne
Ils utilisent plus d’emails en
« .fr »
Groupe 1
3 personnes
1810 mots en moyenne
OutliersGroupe 2 Groupe 3

Exemple d’une prédiction: longueur du CV
La longueur d’un CV est corrélée avec quelles variables ?

Que faire avec la data des candidats ?
La question de l’éthique
est centrale. Les modèles
vont-ils apprendre nos
biais ?
On a besoin de
use cases, de résoudre des
problèmes!
On a besoin de volume
pour faire de la
modélisation sur les CVs

Faire des filtres sur les CVs
avant de proposer un
entretien
Prévenir les
« départs anticipés »
Migration interne en
entreprise
Matching entre
« candidats » et « offres »Comprendre les
comportements sur les RSE
Conseils aux candidats

Data Big Bang
Data
Preparation
Machine
Learning
ETL
Data Viz Developers
Business
Analysts
Notebooks
Data Miner
Dataiku = One Product
Data + Technology + People
End-To-End Solution
Based On Open Source
Collaborative
Production Focused

Dataiku named a “visionary”
in Gartner 2017 Magic Quadrant for Data Science Platforms
Gartner, Inc., Magic Quadrant for Data Science Platforms, Alexander Linden, Peter Krensky, Jim Hare,
Carlie J. Idoine, Svetlana Sicular, Shubhangi Vashisth, 14 February, 2017.
This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the entire document. The Gartner document is available upon request from
Dataiku. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings or other
designation. Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or
implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
Dataiku made its debut on the 2017
Magic Quadrant as
highest in execution for
Completeness of Vision

Comment faire parler les data des candidats ?

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Comment faire parler les data des candidats ?

Ähnlich wie Comment faire parler les data des candidats ? (20)

Comment faire parler les data des candidats ?