Présentation du mémoire de recherche soutenu à l'ENSSIB en juin 2015 : « Le crowdsourcing appliqué aux archives
numériques : concepts, pratiques et enjeux » sous la direction de Céline Guyon (Master 2 Archives Numériques)
Typologie et enjeux du crowdsourcing dans les bibliothèques et centres d'archives
1. 29/11/16 1
Typologie et enjeux du crowdsourcing
dans les bibliothèques et centres
d’archives
Ariane Néroulidis, titulaire d’un master 2 mention “Sciences de l'information et des
bibliothèques”, spécialité “Archives numériques”
Intitulé du mémoire de recherche : « Le crowdsourcing appliqué aux archives
numériques : concepts, pratiques et enjeux » sous la direction de Céline Guyon
2. 29/11/16 2
Objectifs de la séance
• Définir les pratiques participatives à
travers une typologie
• Saisir les enjeux de la participation dans
les institutions de type GLAM
• Comprendre l’intérêt du crowdsourcing
dans le champ des digital humanities
3. 29/11/16 3
Déroulement de la séance
1/Définition des concepts clés et du
contexte d’émergence du crowdsourcing
2/Typologie des pratiques collaboratives
3/Moteurs de la participation
4/Activité pratique : exploration de
plateformes collaboratives
4. 29/11/16 4
Concepts clés
• Crowdsourcing
Etymologiquement :
crowd : désigne la foule
sourcing : renvoie à une activité laborieuse
Sens premier :
« Le crowdsourcing est un processus qui implique
l’externalisation des tâches vers un groupe de
personnes ».
Or dimension économique qui n’a pas de sens
dans le contexte des institutions culturelles
5. 29/11/16 5
Concepts clés
• La Sagesse des foules
The Wisdom of Crowds: Why the Many Are
Smarter Than the Few and How Collective
Wisdom Shapes Business, Economies, Societies
and Nations (2004)
Théorie de l’ « intelligence collective » défendue
par l’économiste James Surowiecki
Maoïsme digital : idée qu’un groupe d’individus
est plus intelligent que le plus intelligent du
groupe
6. 29/11/16 6
Concepts clés
• Le calcul humanoïde
Human Computation : capacité de calcul de
l’homme, comparé à une machine
Exploitation de la puissance du cerveau humain
Computing à l’œuvre dans de nombreuses
applications web (ReCAPTCHA, Google Image
Labeler, Amazon : Mechanical Turk Project)
Sous-traitance numérique : Réalisation de micro-
tâches > cyber-exploitation?
7. 29/11/16 7
Concepts clés
• La production participative
Avis 179 du Journal Officiel de la République
Française (JORF)
« Mode de réalisation d’un projet ou d’un produit
faisant appel aux contributions d’un grand
nombre de personnes, généralement des
internautes. »
« 1. On peut, par exemple, recourir à la
production participative pour concevoir un
logiciel ou élaborer une encyclopédie ».
« 2. On trouve aussi l’expression « production
collaborative ». Equivalent étranger :
crowdsourcing. »
8. 29/11/16 8
Concepts clés
• Collaboratif vs participatif
>Projet de type collaboratif
1 acteur
- Contributeurs : concepteurs & bénéficiaires
> Projet de type participatif
2 acteurs
- Concepteurs (porteurs du projet)
- Contributeurs (internautes)
9. 29/11/16 9
Concepts clés
• Sciences Citoyennes/Sciences participatives
Essor de la Citizen science
« La Science participative nous invite à décentrer nos
façons de penser la science traditionnelle »
Collaboration chercheurs/acteurs de la société civile
Citoyen mis au centre de la recherche
> Principe de décentralisation
10. 29/11/16 10
Concepts clés
• Les archives participatives
« Un organisme, un site ou une collection
auxquels des personnes qui ne sont pas des
professionnels des archives apportent leur
connaissance ou ajoutent des contenus,
généralement dans un contexte numérique en
ligne. Il en résulte une meilleure
compréhension des documents d’archives. »
Kate Theimer (2011)
11. 29/11/16 11
Eléments de contexte
• Spécificités des archives numériques
- Le volume : une masse de documents à numériser
Km d’archives > Séances de numérisation collective
- L’unicité : un seul exemplaire du document
D’un niveau de granularité médian (article)
À un niveau de description plus fin (pièce)
>Permet l’indexation par des moteurs de recherche
- Numérisation en mode image
Transcription des contenus
> Permet la recherche en plein texte
12. 29/11/16 12
Eléments de contexte
• Enquête auprès des archives départementales
Edouard Bouyé, Directeur des Archives
départementales du Cantal « Le web collaboratif
dans les services d’archives publics : un pari sur
l’intelligence et la motivation des publics » (2012)
Evolution du nombre de services d’archives
départementales proposant un module d’indexation
collaborative :
2012 : 19 AD
2015 : 25 AD
>Soit plus d’1/4 des services d’AD.
13. 29/11/16 13
Etat des lieux en
2015
Archives
départementales
pratiquant l’indexation
collaborative
15. 29/11/16 15
Eléments de contexte
• Publics participatifs
- Communauté de généalogistes
Représentent 50 à 60% des publics des archives
- Passionnés d’histoire
Erudits ou amateurs
- Digital natives
Publics connectés
Ex: Wikipédiens
16. 29/11/16 16
Typologie des pratiques participatives
Oomen, Johan, et Lora Aroyo. Crowdsourcing in the
Cultural Heritage Domain.
Classification des activités en 4 catégories principales:
Correction & transcription
Contextualisation
Enrichissement
Classification
[Co-curation & Crowdfunding]
17. 29/11/16 17
Typologie des pratiques participatives
• Correction & transcription
Correction d’OCR
= Optical Character Recognition
Reconnaissance optique des caractères
Problème de fiabilité : nécessité d’une relecture
Exemple de plateformes :
Correct de la Bibliothèque nationale de France
(BnF)
Trove de la Bibliothèque nationale d’Australie
19. 29/11/16 19
Typologie des pratiques participatives
Transcription de manuscrits
Passage du mode image au mode texte
Saisie à partir du manuscrit
Exemple de plateformes :
Transcribe Bentham par l’University College of
London
Transcrire par le Consortium des Ethnologues
20. 29/11/16 20
Typologie des pratiques participatives
Transcription de manuscrits
Difficulté car morcellement des documents
Exercice de puzzle pour reconstituer le sens
Nécessite une bonne connaissance du contexte
de production du document
Exemple de plateformes :
Ancient Lives de l’Université d’Oxford (projet
Zooniverse)
21. 29/11/16 21
Typologie des pratiques participatives
• Contextualisation
Encyclopédie et dictionnaires collaboratifs
Production collaborative élaborée à partir de
documents d’archives
Elaboration d’outils d’accès
Exemple de plateformes :
Rosalipédie de la Bibliothèque numérique de
Toulouse
Le L@boratoire des internautes des Archives
départementales de Vendée
22. 29/11/16 22
Typologie des pratiques participatives
Plateforme d’écriture collaborative
Modèle du wiki
Exemple de plateformes :
Your archives des Archives nationales du
Royaume-Uni
23. 29/11/16 23
Typologie des pratiques participatives
• Enrichissement
Collecte d’archives privées
Dans le cadre d’un événement (commémoration
historique, exposition…)
Souvenirs de famille, histoires inédites
Exemple de plateformes :
Europeana 1914-1918 : Centenaire de la
Première Guerre Mondiale
24. 29/11/16 24
Typologie des pratiques participatives
Appel aux collectionneurs
Dons de particuliers pour enrichir une collection
Exemple : collection de cartes postales sur une
région
Exemple de plateformes :
Cartothèque des Archives départementales de
Lot-et-Garonne
26. 29/11/16 26
Typologie des pratiques participatives
• Classification
Tagging social
Processus d’indexation libre
« tags » : mots clés choisis par l’internaute
Exemple de plateformes :
Waisda? (What’s that?) de l’Institut Néerlandais
pour le Son et l’Image
27. 29/11/16 27
Typologie des pratiques participatives
Indexation collaborative
Utilisation d’un vocabulaire contrôlé
Permet l’élaboration d’une base de données
Concerne principalement les documents
nominatifs (état civil, recensement…)
Intérêt pour les Services d’archives publics
Exemple de plateformes :
Mémoire des Hommes par le Ministère de la
Défense
29. 29/11/16 29
Typologie des pratiques participatives
Catalogage collaboratif
Description de documents à l’aide de
métadonnées descriptives
Permet de fournir des informations plus détaillées
que pour l’indexation
Exemple de plateformes :
What’s the score at the Bodleian? de la Bodleian
Library
30. 29/11/16 30
Typologie des pratiques participatives
• Les médias sociaux
Flickr the Commons
Lancé par la Bibliothèque du Congrès en 2008
Réservé aux institutions de type GLAM
92 membres en 2015
Modules collaboratifs : tags, commentaire, notes
Cf Carnets de la Phonothèque : Flickrland3
Ex : projet de PhotosNormandie (1939-1945)
31. 29/11/16 31
Typologie des pratiques participatives
History Pin
Accessible aux institutions & grand public
Permet la géolocalisation des contenus
iconographiques via Google Map
Principe du pin : épingler les photos dans un lieu
Originalité : le geomapping des photos via l’outil
Streetview
Présentation des nouvelles fonctionnalités
32. 29/11/16 32
Typologie des pratiques participatives
Wikisource
Outil développé par Wikimedia
Publication des textes libres de droit
Edition collaborative de manuscrits
Ex : partenariat des Archives départementales
des Alpes-Maritimes depuis 2012 (page projet)
transcription de visites paroissiales datant de
l’Ancien Régime
34. 29/11/16 34
Typologie des pratiques participatives
• Les stratégies à l’œuvre
Organisation d’événements ponctuels
- Défis (Sunshine Week en 2015 aux
@USNatArchives #1000 pages)
- Concours (History Happens Here! en 2011
Photos de réalité augmentée : effet mashup)
- Journée collaborative (organisation d’edit-a-
thon en partenariat avec Wikipedia)
35. 29/11/16 35
Typologie des pratiques participatives
Retour d’expérience sur l’edit-a-thon organisée
à la MMSH le 23/10/2015 : « Récits et
encyclopédie »
36. 29/11/16 36
Typologie des pratiques participatives
Une dimension ludique
Stratégie de la gamification : approche par le jeu
Ex : Digitalkoot par la Bibliothèque nationale de
Finlande pour la correction collaborative d’OCR
des archives de journaux
Micro-tâches ludiques à partir d’une mascotte
Chasse aux taupes : Mole Hunt
Pont des taupes : Mole Bridge
37. 29/11/16 37
Typologie des pratiques participatives
Un voyage temporel
- Hommage au passé (aux Poilus sur @1J1P et
aux combattants sur @1J1MAM )
- Géolocalisation des lieux du passé (Building
Inspector par la New York Public Library)
- Message à destination du futur (messages aux
citoyens de 2115 par les Archives nationales
d’Estonie #archiiv2115)
38. 29/11/16 38
Moteurs de la participation
• Côté public : facteurs de motivation
Alam, Sultana Lubna, et John Campbell. «
Crowdsourcing motivations in a not-for-profit
GLAM context : The Australian Newspapers
Digitisation Program ». 23rd Australasian
Conference of Information Systems. Geelong, 3
décembre 2012.
39. 29/11/16 39
Moteurs de la participation
Motivations intrinsèques
= liées à l’activité en tant que telle
- Intérêt personnel (activités guidées par les
centres d’intérêt)
- Intérêt collectif (sentiment d’appartenance à
une communauté, échange entre pairs)
- Plaisir personnel (activité agréable, ludique voir
addictive)
40. 29/11/16 40
Moteurs de la participation
Motivations extrinsèques
= liées à une satisfaction indépendante de
l’activité
- L’appât du gain (modèle économique)
- Reconnaissance sociale (systèmes de
gratification symbolique comme le classement
des meilleurs contributeurs)
- E-reputation (expérience valorisante)
41. 29/11/16 41
Moteurs de la participation
• Côté institutions : facteurs de réussite
Ingrédients d’un site réussi
- Visibilité (promotion du projet, module
collaboratif mis en avant, bon référencement)
- Fiabilité (inscription obligatoire, évaluation du
niveau par un test, vérification des résultats)
- Popularité (niveau d’attractivité, espace de
sociabilité entre internautes, lien avec
institution)
42. 29/11/16 42
Moteurs de la participation
Préconisations de Rose Holley
Responsable de la bibliothèque nationale
d’Australie
« Crowdsourcing : How and Why Should
Libraries Do it ? ». D-Lib Magazine (2010)
Checklist pour un projet réussi :
43. 29/11/16 43
Moteurs de la participation
Recommandations de l’OCLC
= Online Computer Library Center
Smith-Yoshimura, et Cyndi Shein. Social
Metadata for Libraries, Archives, and Museums.
OCLC, 2011-2012.
Rapport divisé en 3 parties :
Part 1 : Site reviews (étude des sites existants)
Part 2 : Survey analysis (analyse des résultats)
Part 3 : Recommendations and readings
(18 règles d’or pour mener à bien son projet)
44. 29/11/16 44
Conclusion sur les enjeux
- Enjeux juridiques
Question de la propriété intellectuelle
- Enjeux éthiques
Cas de mésusages : réponse par la pédagogie
- Enjeux économiques : réutilisation
commerciale des données publiques
> « l’économie de la contribution »
Nouveau rapport à l’Archive :
D’un logique verticale top-down (du web vers
l’usager) à une logique horizontale de type
business model (usager au centre)
45. 29/11/16 45
Pour aller plus loin
HOLLEY, Rose. « Crowdsourcing : How and Why
Should Libraries Do it ? ». D-Lib Magazine [en
ligne]. Vol. 16, n°3/4, 2010.
MOIREZ, Pauline. « Archives participatives »,
Bibliothèques 2.0 à l’heure des médias sociaux,
dir. Muriel Amar et Véronique Mesguich, Paris,
Editions du Cercle de la Librairie, 2012,p.187-
197.
MOIREZ, Pauline, MOREUX, Jean-Philippe et
JOSSE, Isabelle. État de l’art en matière de
crowdsourcing dans les bibliothèques
numériques, Bibliothèque nationale de France,
2013.
46. 29/11/16 46
Pour aller plus loin
OOMEN, Johan et AROYO Lora. Crowdsourcing in
the Cultural Heritage Domain : Opportunities
and Challenges. 5th International Conference
on Communities and Technologies, New York,
2011.
SMITH-YOSHIMURA, Karen et SHEIN, Cyndi.
Social Metadata for Libraries, Archives, and
Museums. OCLC. 2011- 2012.
THEIMER, Kate. « Exploring the participatory
archives ». Archives Next. Billet publié le 30
août 2011.
Hinweis der Redaktion
Me présenter (mon parcours, mes missions à la phonothèque)
Tour de table
Dérivés du crowdsourcing : Crowdfunding, crowd labor, crowd voting, crowd collaboration, crowd competition..>participation des internautes
Théorie à l’encontre des préjugés sur la fouleex du statisticien britannique Francis Galton
Difficulté à trouver une traduction en françaisles termes collaboratifs et participatifs sont employés comme des synonymes
Jeremy Bentham : philosophe britannique, dont on a retrouvé 60 000 manuscrits inédits datant de la fin du XVIIIème siècle : découverte de textes inédits
Ancient Lives : fragments de papyrus de l’Egypte gréco-romaine (proviennent de la ville antique de l’Oxyrhynque, la cité du « poisson au nez pointu »)
Prérequis : connaissance de l’alphabet grecécrits de Plutarque et de Simonide
A l’avenir, les manuscrits devraient être élargis à d’autres alphabets comme l’égyptien ancien, l’araméen, l’arabe ou encore le copte.
Rosalipédie : contribue à la valorisation des collections ; chq internautes peut publier 1 article sur 1 doc à condition qu’il soit libre de droit (50e contributeurs qui ont publié entre 1 et 100 articles)
L@boratoire, 3 dictionnaires collaboratifs : le dictionnaire des Vendéens, le dictionnaire historique des communes et le dictionnaire des toponymesIls comportent des notices détaillées sur l’histoire de la région, avec la possibilité d’effectuer des recherches cartographiques parmi ces notices.
Your archives : lancé en 2007 jusqu’en 2012A partir de documents portant sur l’histoire et le patrimoine britannique et conservés dans différents centres d’archives du pays.
Grande Collecte pour la « Mission du Centenaire de la Première Guerre Mondiale » organisée en 2013
Composé de 3 000 cartes postalesA son lancement en 2010 dépôt de 300 cartesLimité car pas de possibilité d’indexer cartes déposés par les autres internautes
Lancé en 2009 et présenté comme un jeu vidéo (video labelling game)temps limité : 10secle joueur marque des points s’il saisit le même mot que son adversaire
Obj : indexer Base des morts pour la France de la Première Guerre Mondiale
Bodleian Library : une des plus prestigieuses universités d’Oxford
propose le catalogage de partitions musicales Pour chaque partition, le contributeur doit remplir des métadonnées structurées qui concernent le morceau de musique (titre, compositeur, arrangeur…), la publication (éditeur, lieu de publication…) ou les illustrations (type de couverture, illustrateur…). Une connaissance musicale minimale est requise pour pouvoir contribuer, car il faut également préciser la notation musicale (clé musicale, tempo…)
PhotosNormandie : projet lancé en 2007, initiative privée (porté par Michel Le Querrec et Patrick Peccatte)3000 photos libres de droit de la bataille de Normandie (6 juin-fin août 1944). Légendes des photos lacunaires