5. Un sujet d'actualité
Sujet d'actualité et de surcroît « brûlant » en matière de
bibliothéconomie, la numérisation ne laisse pas de susciter
maints commentaires
Conduire un projet de numérisation / 2002
1992 2005 2010
Contexte
6. Les bibliothèques numériques
● Corpus de documents, le plus souvent du domaine
public, numérisés et disponibles en ligne
● Développées principalement par les
bibliothèques
● Volumétries très variables
● Qualité très variable
– Qualité du contenu
– Qualité de la présentation
Contexte
7. Projet Gutenberg
http://www.gutenberg.org
● Projet bénévole lancé en 1971
● 30 000 ouvrages
● Vérification manuelle
Contexte
8. Gallica
http://gallica.bnf.fr/
● Lancé par la BnF en 1997
● 1 million de documents
– 150 000 livres
– 700 000 fascicules de périodiques
● Mode texte et image
● Documents sous droits
– Depuis 2007
– 20 000 livres
Contexte
9. Wikisource
http://fr.wikisource.org
● Projet frère de Wikipedia, lancé en 2003
● Ouvrages du domaine public (plusieurs dizaines
de milliers)
● Partenariat avec la BnF
● Désaccord avec Gallimard (informations)
Contexte
10. Google Books
http://books.google.fr/
● Lancé en décembre 2004
● 10 millions d'ouvrages numérisés
– 1,5 millions du domaine public
– 2 millions en partenariat avec les éditeurs
● Un accueil mitigé chez les professionnels
– 300 000 € de dommages et intérêts à La
Martinière (déc. 2009)
– ~ 20 bibliothèques partenaires
Le téléchargement dans Google Books
Contexte
11. Un avis sur la numérisation de masse
Quantitatif : avantage Google
⟶ Plus, plus vite et moins
cher que tout le monde
Qualitatif : avantage Google
⟶ Presque aussi bien que tout
le monde
Accès : avantage Google
⟶ Plus rapide, plus efficace,
plus « pratique », plus
central
Source : Olivier Ertzscheid
CC-BY-NC-SA // Kathelinejeanpierre.ca // Flickr
12. 2
Les objectifs
CC-BY-SA // Multimotyl // Wikimedia Commons
13. Diffuser
● Document aisément reproductible
● Palliatif intéressant pour les ouvrages
difficilement communicables
● Ne nécessite pas de matériel spécifique (≠
microfiches)
● Non exclusif
Objectifs
14. Valoriser
● Mise en avant sur un site Internet
● Diffusion élargie
– Moissonnage par des bibliothèques
d'envergure
– intégration dans des projets externes aux
bibliothèques
– Flickr Commons
– Wikimedia Commons
Objectifs
15. Préserver
⚠
● Limite les manipulations des originaux
● Pérennité des supports numériques
Objectifs
17. Type de document
● Forme de l'objet
– Texte ou graphique
– Imprimé ou manuscrit
– Couleur / Noir et blanc
● Contenu
– Texte
– Formulaire
– Niveau de structuration
Facteurs
18. Format du document
● Taille (A4, A3, format spécifique ...)
● Couleur
● Papier
● Pagination
– Automatisation
– Choix du format de sortie (multipage ?)
Facteurs
19. Volume
● Méthode et coût
– Automatisation, sous-traitance
● OCR et recherche plein texte (plutôt
qu'indexation ?)
● Gestion des transferts vers le prestataire
● Ressources disponibles en interne
● Stockage des documents numériques
Facteurs
20. Homogénéité du fonds
● Formats différents
– Méthode de scannage à adapter ?
– Qualité de l'OCR sur un corpus hétérogène ?
– Coût
● Documents de nature différente
– Pertinence du traitement dans un seul projet
?
Facteurs
21. État des documents
● Choix du scanner et de la méthode
● Traitement sur place
– Création d'un atelier
– Main d'œuvre dédiée
Facteurs
22. Coût
● 15 à 75 centimes par page (très variable)
● 60 à 75 % du coût en main d'œuvre
● Ne pas négliger les coûts induits en local
– Sélection des documents
– Préparation des trains de numérisation
– Contrôle qualité
Facteurs
24. « Les opérations de numérisation de documents ne confèrent à la
bibliothèque aucun droit de propriété littéraire et artistique
sur les œuvres ainsi reproduites. »
http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/juridi.html
25. Le droit moral
● Droit de divulgation
● Droit de paternité
● Droit au respect de
l'œuvre
● Droit au repentir
CC-BY // Midgefrazel // Flickr
26. Les droits
patrimoniaux
● Droits de reproduction
● Droits de représentation
CC-BY-NC-SA // France.Diplomatie // Flickr
27. L'auteur jouit, sa vie durant, du droit exclusif d'exploiter
son œuvre sous quelque forme que ce soit et d'en tirer un
profit pécuniaire.
Au décès de l'auteur, ce droit persiste au bénéfice de ses
ayants droit pendant l'année civile en cours et les soixante-
dix années qui suivent.
Art. L.123-1 du code de la propriété intellectuelle
28. Creative Commons
BY
Attribution
NC
Non Commercial
ND
No Derivative
SA
Share Alike
CC-BY-SA // Arnij // Flickr
30. Modes de numérisation
Idéal : une combinaison des deux numérisations
Mode texte Mode image
● Donne du sens au contenu ● Restitution du document
● Permet l'indexation, la recherche original à l'identique
+
● Plus cher ● Limite les possibilités en terme
● Nécessite d'avoir des outils d'usage
performants
Technique
31. OCR
● Reconnaissance optique de caractères
● Taux de reconnaissance > 99% pour des textes
propres
● Plus compliqué sur du document ancien ou
manuscrit
http://gallica.bnf.fr/ark:/12148/bpt6k56800101.f7
http://gallica.bnf.fr/ark:/12148/bpt6k56800101.texte.f7
Technique
32. ICR
● Reconnaissance intelligente de caractères
● Mécanisme d'apprentissage
● Plus adapté aux manuscrits
Technique
34. Résolution
● Se mesure en point par pouce
– 1 pouce = 2,54 cm
– 1 pouce = 1 inch
● Résolutions standards (BnF, 2008) :
– Fichiers de conservation : 300 dpi
– Fichiers de diffusion : 150 dpi
– Fichier de visualisation : 72 dpi
Technique
35. Couleurs
● Noir & Blanc
● Niveau de gris
● Couleurs
● Échantillonage (bits par pixel)
– 1 bit → 2 couleurs (noir et blanc)
– 2 bits → 4 couleurs ou niveaux de gris
– 8 bits → 256 couleurs ou niveaux de gris
– 24 bits → 16 millions de couleurs (vraies
couleurs)
Technique
36. Métadonnées EXIF
● Exchangeable Image File
● Dernière version en 2002 (2.2)
● Standard de fait
CCBYSA // YellowShark // Wikimedia Commons
● Produite par un appareil photo ou ajoutées a
posteriori
● Décrit :
– Résolution, dimension, orientation de
l'image
– Date et heure de la prise de vue
– Informations sur l'appareil (fabricant,
type, réglages)
– Coordonnées géographiques
Technique
37. Métadonnées IPTC-IIM
● International Press and Telecommunications
Council Information Interchange Model
● Utilisé dès 1994 par Adobe
● Métadonnées descriptives :
– Titre
– Auteur
– Agence
– ...
Technique
38. XMP
● eXtensible Metadata Platform
● Créé par Adobe en 2001
● Basé sur XML / Dublin Core, IPTC-IIM et EXIF
● Encapsulable dans des fichiers JPG, TIFF, DNG,
PDF
Technique
39. 6
La mise en ligne
CC-BY // Arnoldius // Wikimedia Commons
40. Une étape obligatoire
● Pour répondre à nos décideurs / financeurs
● Pour répondre à nos usagers
● Pour rencontrer un nouveau public
CC-BY-SA // Roulex_45 // Wikimedia Commons
42. OAI - PMH
● Format d'échange basé sur XML
● Fourniture des données en Dublin Core
● Protocole très simple
– Informations sur un serveur
– Liste des enregistrements
● Nécessite d'avoir des urls pérennes
43. Choix des outils
●
Libre / Propriétaire
●
Local / Hébergé
●
Full-web ou pas
CC-BY // SophieA // Flickr
44. BM Toulouse
Sur son site
● Logiciel libre : Greenstone (unesco)
● Application web
● Classement par collections
http://numerique.bibliotheque.toulouse.fr
Sur Flickr
● Projet The Commons
● Dissémination du contenu
● 920 images
http://www.flickr.com/photos/bibliothequedetoulouse/
Mise en ligne
45. BM Lille
● Logiciel libre : SDX
● Application web
http://numerique.bibliotheque.bm-lille.fr
46. BM Fréjus
● Hébergement chez Arkhenum
● Numérisation des archives d'un
journal local
● Numérisation PDF / Texte
http://www1.arkhenum.fr/bm_frejus_le_var/
Mise en ligne
47. Université Rennes 2
● Logiciel libre : Omeka
● Application web
● Plugins variés :
● Serveur OAI
● Géolocalisation
● Visualisation
http://bibnum.univ-rennes2.fr
Mise en ligne
48. 7
Étapes du
projet
CC-BY-SA // Sémhur // Wikimedia Commons
49. La numérisation
● Définir les objectifs de la numérisation
● Sélectionner le fonds à traiter
– Fonds préexistant ou sélection d'un sous-
corpus
– Importance de l'homogénéité de l'ensemble
– S'assurer des contraintes législatives
● Répartir les rôles
Étapes
50. La numérisation
● Définir les questions techniques
– Résolution
– Format
– OCR
– Métadonnées
– Support de livraison
● Définir une règle de nommage
● Contrôler la qualité des documents produits
● Archiver les documents
Étapes
51. La diffusion
● Choisir ce qui doit être diffusé
● Choisir la manière de diffuser
– Via un outil interne
– Via un site web externe
● Si on diffuse via un outil interne, s'assurer
de :
– Son ouverture
– Son interopérable
– Son accessibilité
Étapes
52. Support
sous licence
Creative Commons BY SA
MERCI
Inspiré du support
symac de cours de Claire
Scopsi
(INTD-CNAM)