Colloque “Pratiques numériques”, le 12/10/2017
Centre National du Microfilm et de la Numérisation, Espeyran
Pierre Couchet, Université de Lorraine, CNRS
1. De l’origine des archives aux
travaux de Shannon
Colloque “Pratiques numériques”, le 12/10/2017
Centre National du Microfilm et de la Numérisation, Espeyran
Pierre Couchet, Université de Lorraine, CNRS
2. L’odyssée des archives, la transmission de
l’information, le tournant numérique, la théorie de
Shannon, le Bureau des longitudes
3. Plan
Informaticien au Laboratoire d’Histoire des Sciences et
de Philosophie - Archives Henri Poincaré;
documentaliste génétique, base PASCAL (années 90)
● Les supports de l’information (S0 à S9)
● La transmission de l’information (T0 à T5)
● Pratiques et théories d’archivistique (H0 à H2)
● Le modèle OAIS (H10 à H13)
● La théorie de l’information (H20 à H32)
● Le Bureau des longitudes (B0 à B3)
● Conclusions
4. S0. La bulle-enveloppe d’argile
● 7500 à 3500 av. J.-C., à Uruk et dans
les cités mésopotamiennes
● Bulle-enveloppe et ses jetons de
comptabilité. Terre cuite creuse,
Musée du Louvre
● Contrat entre agriculteurs (peuple),
impôts en nature dûs au roi-prêtre
(pouvoir)
● Contenu numérique (à l’intérieur)
et écrit (extérieur), un seau preuve
d’authenticité, bulle brisée en fin de
contrat (proto-monnaie)
● Archives = Histoire = Écriture =
Information textuelle et numérique
5. S1. La tablette d’argile
● 3500 à 150 av. J.-C., scribes sur
tablette d’argile en
Mésopotamie / Mycènes
● Cunéiforme, calame, plusieurs
langues : sumérien,
babylonien / Linéaire B
● Administration privée et
publique, textes scolaires,
politiques, droit, militaires,
religieux, littéraires et
scientifiques -> bibliothèque
● Maths : bases 10, 60, 360
6. S2. Le papyrus ● 3000 av. J.-C. à +300,
● 2600 av. J.-C., le scribe
accroupi, statue Louvre
● Delta du Nil, monopole,
export en méditerranée
● Papyrus, encre, rouleau, le
volumen
● Administration, textes
scolaires, politiques,
militaires, droit, religieux,
scientifiques
● Maths : base 10 / pas de 0
● -> Archives et bibliothèque
7. S3. Le parchemin
● 200 av. J.-C. - XVème siècle
● Codex : possibilité de plier
la feuille
● Organisation en pages,
couverture, titre, chapitre,
table des matières, index
● Structure hiérarchique aisée
● Lecture silencieuse,
apparition du roman
● Livres précieux, chartes,
archives définitives
● Coût important
8. S4. Le papier
● 200 av. J.-C. Chine et Japon,
751 monde Arabe, 1056
Espagne, 1102 Sicile, Italie,
Europe XIIème au XIVème,
1450 imprimerie Gutenberg
● +100 au XVII ème, l’amate en
amérique centrale
● Courrier, tract, post-it, affiche
● Livre, Rapport, journaux et
presse
● VIII ème siècle en Chine, 1658 à
Stockolm, monnaie, contrat
● Coût réduitun tapuscrit en forme de blog !
9. S5. La cire
● 1400 av. J.-C. - 19ème
siècle, mycéniens,
phéniciens, Grèce, Rome
● Écriture avec un stylet
sur tablettes et codex
● Notes, brouillon,
apprentissage, comptes,
correspondance privée,
vote judiciaire à Rome
● 1877, phonographe,
cylindre de cire (Edison)
● 1887-, disques vinyles
10. S6. La carte perforée
● 1725, métier à tisser de Basile
Bouchon (Arts et métiers)
● 1801, métier Jacquard
● 1834, la machine analytique de
Charles Babbage (mécanique à
vapeur)
● 1887, carte perforée Herman
Hollerith, traitement
mécanographique du
recensement US
● 1896, carte perforée IBM
● 1930, Bull-Atos en France
● 1970, disparition de la carte
perforée
11. S7. Les supports optiques
● photo, texte, audio, vidéo,
informatique / analog. num.
● 1839, daguerréotype, …
microfilm, microfiche
● 1884, enregistrement analogique
audio sur disque de verre, Volta
laboratory US
● 1982-, disque CD audio, Philips
et Sony, 0,74 Go
● CD ROM, CD Video, Read
Write
● DVD, Blu-Ray, etc…
13. S9. Mém. électron. persistantes
Résistance aux chocs,
consommation électrique faible.
● 1971, EPROM Intel (ROM)
● 1988, Mémoire Flash : app. photo,
caméras, smartphone, portable
● 1990, clé USB
● carte SD, mini SD, micro SD,
CompactFlash,
● Disque SSD ordinateurs
portables et fixes, rapidité du
démarrage
14. T0. Transmission de l’info
● Auguste, Cursus publicus
● 1792, sémaphore
● 1840, télégraphe (morse,
code Baudot)
● 1877, téléphone fixe
● 1976, tél. mobile (4G)
● 1990, Internet (backbone,
FTTH + mémoire distante)
● Plus loin, plus vite, plus
fort, moins cher, plus
sécurisé (censure,
espionnage, piratage),
ondes avec signal crypté
15. T1. Internet as a network
Commutation de paquets
● 1983, protocole TCP/IP
Transmission Control Protocol / Internet
Protocol
Commutation de circuit
● 1878-1978, opératrice tél.
16. T2. Internet as a storage medium
Internet : réseaux d’ordinateurs connectés par le
protocole (TCP/IP); messagerie, web, pair à pair, FTP ...
● 1983, TCP/IP sur ARPANET,
Vinton Cerf & Axel Kahn
● 1989, fournisseurs
commerciaux d’accès à
Internet, US, Australie, mail
● 1990, Tim Berners-Lee
développe http, html, 1er
navigateur, 1er serveur -
mémoire, 1ère page Web,
modèle client-serveur
● 1994, W3C : Un seul web partout et pour
tous
● 1969-1990, ARPANET
(ARPA)
● 1970-1978, Cyclades France
(INRIA)
● 1981-1996, Bitnet
● 1985-1995, NSFNet
remplace ARPANET en
1990
● 1990, liaison
transatlantique (1.5
Mbits/s) NSFNet -- CERN
17. T3. Médias de masse
● Le discours sur l’agora, l’enseigne, le tract, l’affiche, le
théâtre (Babylone, Grèce, Rome), presse écrite (1605,
Strasbourg), cinéma (1891), radiodiffusion (1906),
télévision (1947).
● 1920, émergence de canaux spécifiques pour la diffusion
de masse, les “médias” s’imposent.
● 1990, Internet = médias revisités : texte, photo, audio,
vidéos, 3D, carte ...
● Expression spécifique des médias (4ème pouvoir ?)
● “The medium is the message” Marshall McLuhan
18. T4. Le numérique, un vieux truc
1. Mémoires locales et distantes
2. Réseau (modem acoustique)
3. Logique : OS sur
microprocesseur (1971, Intel
C4004)
● 1977, Ordinateur personnel
Apple II
● Tournant culturel : la
génération Y (digital-natives)
● Un vieux truc, qui bouge !
19. T5. Usages du numérique
● Écrit : blog, réseaux sociaux,
journaux, livre, encyclopédie,
moteur de recherche
● Télécommunications : mail,
téléphone, visioconférence
● Médias : photo, son, radiodiffusion,
télévision, vidéo (à la demande)
● Monnaie et commerce : hôtels,
transports, achats, ventes, banque...
● Et les archives dans tout cela ?
20. H0. Pratiques et théories
● Pratiques -- règles, normes, modèles -- théories
● Évolution des pratiques : pratique 1 -> pratique 2
● Aspect générique, prédictif, esthétique des théories
● Élaborer des normes, des modèles et des théories : pour
transformer un art en science
Pratique 1 Théorie 1Pratique 2 Théorie 2
Règles 1
Modèle 2
Normes 2
21. H1. Théorie des trois âges
● Un document suit un cycle de vie composé de trois phases :
a. Archives courantes, dossiers actifs
b. Archives intermédiaires, dossiers clôturés
c. Archives historiques, tri, dossiers inactifs, patrimoine
● Respect des fonds, principe de provenance
22. H2. L’archivage numérique
Pratiques d’archivage numérique :
● Règle 1 : Classer, nommer, ajouter des métadonnées
● Règle 2 : Dupliquer l’information en sauvegarde
● Règle 3 : Changer de format lorsque nécessaire
● Règle 4 : Changer de matériel tous les 5 ans !
23. H10. Le modèle OAIS
Perte de données. Comment construire des archives
numériques dignes de confiance ?
● Attribuer des rôles :
● Producteur (Submission Information Package)
● Gestionnaire et administrateur (Archival Info. Package)
● Consommateur, public cible (Diffusion Info. Package)
● Spécifier des entités fonctionnelles : contrôle des
accès, mémorisation des données et métadonnées,
transmission de flux, duplication pour préservation,
calcul de la somme de contrôle des fichiers, vérification
de la stabilité de la somme, audit de l’archive.
24. H11. Le modèle OAIS
Modèle conceptuel OAIS (Open Archival Information
System) : gestion, archivage et préservation à long terme
de paquets d’information numérique. Norme ISO 14721
(2002)
25. H12. Bulle-enveloppe et AIP
Le premier AIP “Paquet
d’information d’archive” :
Métadonnées + Données
26. H13. Entrepôts de confiance
Données et
Métadonnées
Entrepôts de
confiance
Bulle-enveloppe,
tablettes terre, papiers,
images, médias, code
informatique
Archives (nationales,
locales, de chercheur,
familiales, informatiques)
Rouleaux, codex, livres,
revues, journaux, articles
publiés, dictionnaires
Bibliothèque
Oeuvre d’art, traditions
populaires, techniques,
expositions
Musée
Monnaie,
crypto-monnaies
Banque (informatique
bancaire 1957)
Contrat d’assurance Compagnie d’assurance
Brevet Office de brevets
Institutions et entreprises
concernées par le numérique
depuis les années 1960
27. H20. La théorie de l’information
● Claude Shannon, 1916 - 2001
● L’analyseur différentiel de
Vanevar Bush, 1936
● Theory of communication, 1948
● Laboratoires, Bell 1941 - 1972
● MIT, 1958 - 1978
28. H21. Shannon de 1916 à 1940
● Claude Shannon Sr (homme d’affaire) et
Mabel Catherine Wolf (principale collège
Gaylord, Michigan)
● Loisirs, job : jonglage, club radio,
fabrication d’un télégraphe, coursier
● Admire Edison, lit George Boole
● 1936, double licence en Génie électrique et
Mathématique au MIT, Cambridge,
Massachusetts, analyseur différentiel
● 1940, thèse de doctorat en théorie de la
génétique des populations & math, MIT
● 1940, National Research Fellowship à
Princeton, New Jersey
● 1940, Bell Labs, New Jersey
29. H22. Publis précédant la théorie
● A symbolic analysis of relay and switching circuits, master
these, 1937
● An algebra for theoretical genetics, PhD these, 1940
Au NDRC (National Defense Research Committee), V. Bush,
N. Wiener :
● 1941-1946, 5 articles sur la théorie du fonctionnement de
machines automatiques de tir antiaérien
Chez Bell Laboratories, W. Weaver :
● 1940-1944, 6 articles sur les relais et la PCM
● A mathematical theory of cryptography, 1945, article classé
● 1946-1948, 10 articles sur les canaux, les réseaux, les
processus aléatoires et le bruit
30. H23. Qu’est ce que c’est ?
“A mathematical theory of communication”, 1948, Bell
System Technical Journal
● Théorie de physique statistique relative à la nature de
l’information, à son encodage en signal et à sa
transmission dans un canal imparfait.
● Comment quantifier l’information ?
● Comment encoder un message pour optimiser sa
transmission dans des canaux de capacité limitée ?
● Comment transmettre sans erreur un signal dans un
canal en présence de bruit ?
31. H24. Aspect physique de l’info.
Aspect sémantique Linguistique non traité
Aspect physique Signal numérique OK
Signal analogique
Signal mixte
“Le problème fondamental de la communication est celui
de reproduire en un point, soit exactement soit
approximativement un message sélectionné à un autre
point”. Deux aspects de l’information :
32. H25. Modèle de Shannon Weaver
● Source d'information, envoie un message
● Transmetteur transforme le message en signal
● Canal de communication, transmet le signal
● Source de bruit, erreur dans le signal
● Récepteur transforme le signal en message
● Destinataire, réceptionne le message
33. H26. Une question de logique
Le choix alternatif (perforation ou non d’un emplacement
sur une carte, relai en 0 ou 1, oui ou non, A ou B) définit le
bit (binary digit = chiffre binaire)
● bit = variable discrète, unité de mesure de l’information
● Encodage en puissance de 2 bits (2, 4, 8, 16, 32 bits)
optimise la performance des canaux
● ex : les 26 lettres de l'alphabet nécessitent au moins 5
bits pour être encodées car :
{(2⁴ = 16) et (16 < 26)} et {(2⁵ = 32) et (32 > 26)}
log2(26) = 4,7 => 5 bits
34. H27. Une question de statistique
Dans le cadre du modèle, en absence de bruit et avec un
signal discret, l’entropie H mesure statistiquement la
quantité d'information délivrée par une source
d'information, ou bien l’incertitude quant à sa réception.
● L’entropie informationnelle en bits est le logarithme en
base 2 du nombre de choix possibles
● Pour optimiser la transmission d’un signal binaire : la
fréquence des 0 et des 1 doit être égale à 0,5
● Formule identique à l’entropie de Boltzmann
35. H28. Domaines d’application
Un modèle facile à comprendre, un article difficile à lire qui
fédère une petite communauté de théoriciens. Domaines
d’applications possibles :
● Télécommunications, télédiffusion
● Informatique, cryptographie, compression, numérisation
● Biologie moléculaire
● Sciences de l’information ?
● Neurologie, transmission du message nerveux ?
Domaines peu adaptés (la sémantique est primordiale) :
● Littérature, psychologie, sociologie, sciences politiques...
36. H30. Code génétique
Le problème fondamental de la nature est celui de
reproduire approximativement en un point une population
présente en un autre point. La nature dispose pour cela de
3 outils :
● Génétique (ADN *, ARN, épigénétique)
● Neurologie : système nerveux central et périphérique
● Culture (connaissances individuelles acquises,
patrimoine social inter-générationnel, …, machines *)
* Information quantifiable en bits
37. H31. Génome humain en bits
● Intérêt philosophique du lien entre information
génétique et information de Shannon
● ADN : polymère en double hélice constitué de 4 paires de
bases nucléiques (A, G, C, T)
● Un génome humain haploïde = 3 milliards de paires de
bases (20 000 gènes)
● Une cellule diploïde = 6 milliards pb (duplication info.)
● Chaque paire de base contient 2 bits d’info. (00, 01, 10, 11
pour A, G, C, T). Un octet (8 bits) encode 4 pb
● 1,5 gigaoctet (2 CD) d’info. dans chaque cellule humaine
● 26 milliards de cellules humaines à la naissance
43. B1. Le workflow
Données (Paris-Dunkerque)
numérisation → fichiers JPEG et TIFF
Métadonnées enrichies (Paris-Nancy)
récolement enrichi + transcription et
annotations
1/ Site web sur les serveurs
d’Huma-Num
Accès public, aux procès
verbaux et aux transcription
Accès privé, à l’administration
2/ Archivage pérenne
Accès privé, sauvegarde des
données, des métadonnées et
des transcriptions
(Nancy / Huma-Num)
45. B3. Un projet du LHSP-AHP
● http://bdl.ahp-numerique.fr/
● Travail scientifique (M. Schiavon, L. Rollet ...),
technique et graphique (J. Muller, S. Girod, P.
Couchet ...) sur Paris, Dunkerque (CADN) et Nancy
● Omeka, données ouvertes, facilite les collaborations
scientifiques interdisciplinaires, projet ANR 2016
Creative Commons 3.0 Partage à l’identique
Attribution (citation)
46. Conclusion 1
● Caractère hybride des archives (papier, électronique)
○ Créer des liens entre supports : métadonnées
● Caractère unifiant des théories
47. Conclusion 2
Être ou ne pas être : telle est
la question
Je pensais appeler cela
“information” mais le mot était
excessivement employé, alors j’ai
décidé d’appeler cela
“incertitude”