Extrait de l'infolab consacré aux prénoms, une donnée (ouverte) populaire par Simon Chignard (présentation du 11/04/2013 lors de la réunion du groupe national Infolab avec la Fing)
[Infomobilité] Mobilite urbaine 2.0 : participation, innovation et usagers
Infolab : les prénoms, une donnée populaire
1. Les prénoms, une donnée populaire
Simon Chignard - @schignard
simonchignard@mac.com
www.donneesouvertes.info
1
2. Atelier «Prénoms»
Sommaire
Découverte du sujet
1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année
2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003)
3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance
Les données disponibles
1/ Sur les portails Open Data des collectivités
2/ Le fichier Insee
3/ Les prénoms des candidats au bac
Lecture critique des données disponibles
1/ Périmètre et constitution du fichier
2/ N = ?
3/ Où êtes-vous vraiment nés ?
Des réutilisations possibles
1/ La diversité des prénoms et l’évolution dans le temps
2/ Les effets de mode et l’influence d’évènements extérieurs
3/ Le prénom un indicateur social ?
4/ Les prénoms et la crise
Le lien entre matière première disponible et réutilisations possibles
1
2
3
4
5
2
7. Découverte du sujet
Les prénoms comme un bien de
mode
Le Top des prénoms : Emma et
Matthis
«Le retour de Lola, face à
l’indétronable Enzo»
L’influence d’évènements
extérieurs : les stars de cinéma, les
chanteurs, etc...
Les prénoms farfelus
Attention aux prénoms farfelus !
Loréal, Ikea, Tartempion, MJ, ...
les premières perceptions du phénomène
7
9. Les jeux de données disponibles
Sur les portails Open Data des
collectivités ou data.gouv.fr
Bordeaux
Coulommiers
La Rochelle
Nantes
Rennes
Montpellier
Paris
Sarlat-la-Canéda
Digne-les-Bains
Toulouse
...
Le fichier prénoms de l’INSEE
Soumis à redevance mais disponible en
ligne sur nosdonnees.fr
Sur demande auprès de l’état-civil
en application de la loi CADA
Poitiers
Le fichier des candidats au bac 2011 et 2012
compilé par Baptiste Coulmont à partir du site
web de l’Education nationale
Un recensement rapide
9
11. Lecture critique des données
Qui figure dans le fichier ?
Comment est-il constitué ?
Le fichier représente-t-il l’ensemble
des naissances ?
Les premières questions
11
12. Lecture critique des données
N=?
Le fichier prénoms de l’INSEE
N = naissances enregistrées (bulletin de
naissance) sur le territoire y compris
DOM de 1900 à 2009, à l’exception des
enfants portant un prénom donné moins
de 3 fois au cours d’une année (prénoms
«rares».
Le fichier de Paris en Open Data
N = naissances à la date
d’enregistrement à l’état-civil sur le
territoire de Paris, à l’exception des
enfants portant un prénom donné moins
de 5 fois au cours de l’année
Le fichier des candidats au bac en
2012
N = candidats au bac 2012 ayant accepté
la publication de leurs résultats
12
14. Relativiser la part des prénoms
figurant dans le Top
Comment illustrer la courbe de
distribution de type longue traîne ?
(Loi de Zipf)
Montrer la diversité dans le
temps
Indicateur : nombre de prénoms
nécessaires pour nommer la moitié
d’une classe d’âge
Indicateur : pourcentage des
enfants qui portent un prénom du
Top 50 (les plus donnés)
Indicateur : pourcentage des
enfants recevants un prénom
unique dans une ville
a - Montrer la diversité des prénoms
Des réutilisations possibles
«scoring prénoms»
en marketing
14
15. La mode des prénoms courts
Enrichissement du fichier : nombre
de lettres dans le prénom
Attention : Tom et Léa, 3 lettres
chacun !
Les terminaisons à la mode
Enrichissement du fichier : prénoms
ayant une terminaison en -a ou -ah
(Léa, Sarah, Emma, ...)
vs.
prénoms ayant une terminaison en
-ette (Bernadette)
b - Le prénom, un bien de mode
Des réutilisations possibles
L’influence d’un évènement
externe
Un fait divers
Une chanteuse à la mode
...
La recherche d’éventuelles
spécificités locales
Est-on plus originaux à Paris, La
Rochelle ou Nantes ?
15
16. b - Le prénom, un bien de mode
L’influence d’un évènement externe : un fait divers
%desnaissances(garçons)portantleprénom
5700
2200
16
17. b - Le prénom, un bien de mode
L’influence d’un évènement externe : une chanteuse
%desnaissances(filles)portantleprénom
1200
550
17
18. Les mentions au bac en fonction
du prénom (Baptiste Coulmont)
c - Le prénom, un indicateur social
Des réutilisations possibles
18
19. Le carnet du Figaro
Enrichissement du fichier : prénoms
figurant dans le carnet du Figaro
Attention : Justin !
(Parenthèse juridique)
Selon la licence choisie pour le jeu
de données initial, on devra
republier ces enrichissements selon
les mêmes conditions... (ODbL)
Ilustration concrète du partage à
l’identique (share-alike).
c - Le prénom, un indicateur social
Des réutilisations possibles
19
20. d - Le prénom en
période de crise
Des réutilisations possibles
20
21. Le lien entre la matière première
disponible et les réutilisations possibles5
21
22. Une très grande hétérogénéité
des jeux disponibles
Analyse de Charles Népote sur les
jeux disponibles : contenu du
fichier, plage temporelle, licence, le
troncage réalisé
La comparaison entre territoires est
très difficile.
Un troncage lié à leur ouverture
Les prénoms rares ne figurent pas
dans les fichiers. Or ils sont
indispensables pour répondre à
certaines questions :
«Je veux donner à mon enfant un
prénom qui n’a jamais été donné
dans cette ville»
La matière disponible détermine les
réutilisations possibles
Certains phénomènes relèvent
du temps long
Un prénom revient à la mode
suivant un cycle de 80 à 120 ans.
Les fichiers publiés couvrent des
périodes temporelles beaucoup
plus limitées...
22