SlideShare ist ein Scribd-Unternehmen logo
1 von 48
Downloaden Sie, um offline zu lesen
De l’origine des archives aux
travaux de Shannon
Colloque “Pratiques numériques”, le 12/10/2017
Centre National du Microfilm et de la Numérisation, Espeyran
Pierre Couchet, Université de Lorraine, CNRS
L’odyssée des archives, la transmission de
l’information, le tournant numérique, la théorie de
Shannon, le Bureau des longitudes
Plan
Informaticien au Laboratoire d’Histoire des Sciences et
de Philosophie - Archives Henri Poincaré;
documentaliste génétique, base PASCAL (années 90)
● Les supports de l’information (S0 à S9)
● La transmission de l’information (T0 à T5)
● Pratiques et théories d’archivistique (H0 à H2)
● Le modèle OAIS (H10 à H13)
● La théorie de l’information (H20 à H32)
● Le Bureau des longitudes (B0 à B3)
● Conclusions
S0. La bulle-enveloppe d’argile
● 7500 à 3500 av. J.-C., à Uruk et dans
les cités mésopotamiennes
● Bulle-enveloppe et ses jetons de
comptabilité. Terre cuite creuse,
Musée du Louvre
● Contrat entre agriculteurs (peuple),
impôts en nature dûs au roi-prêtre
(pouvoir)
● Contenu numérique (à l’intérieur)
et écrit (extérieur), un seau preuve
d’authenticité, bulle brisée en fin de
contrat (proto-monnaie)
● Archives = Histoire = Écriture =
Information textuelle et numérique
S1. La tablette d’argile
● 3500 à 150 av. J.-C., scribes sur
tablette d’argile en
Mésopotamie / Mycènes
● Cunéiforme, calame, plusieurs
langues : sumérien,
babylonien / Linéaire B
● Administration privée et
publique, textes scolaires,
politiques, droit, militaires,
religieux, littéraires et
scientifiques -> bibliothèque
● Maths : bases 10, 60, 360
S2. Le papyrus ● 3000 av. J.-C. à +300,
● 2600 av. J.-C., le scribe
accroupi, statue Louvre
● Delta du Nil, monopole,
export en méditerranée
● Papyrus, encre, rouleau, le
volumen
● Administration, textes
scolaires, politiques,
militaires, droit, religieux,
scientifiques
● Maths : base 10 / pas de 0
● -> Archives et bibliothèque
S3. Le parchemin
● 200 av. J.-C. - XVème siècle
● Codex : possibilité de plier
la feuille
● Organisation en pages,
couverture, titre, chapitre,
table des matières, index
● Structure hiérarchique aisée
● Lecture silencieuse,
apparition du roman
● Livres précieux, chartes,
archives définitives
● Coût important
S4. Le papier
● 200 av. J.-C. Chine et Japon,
751 monde Arabe, 1056
Espagne, 1102 Sicile, Italie,
Europe XIIème au XIVème,
1450 imprimerie Gutenberg
● +100 au XVII ème, l’amate en
amérique centrale
● Courrier, tract, post-it, affiche
● Livre, Rapport, journaux et
presse
● VIII ème siècle en Chine, 1658 à
Stockolm, monnaie, contrat
● Coût réduitun tapuscrit en forme de blog !
S5. La cire
● 1400 av. J.-C. - 19ème
siècle, mycéniens,
phéniciens, Grèce, Rome
● Écriture avec un stylet
sur tablettes et codex
● Notes, brouillon,
apprentissage, comptes,
correspondance privée,
vote judiciaire à Rome
● 1877, phonographe,
cylindre de cire (Edison)
● 1887-, disques vinyles
S6. La carte perforée
● 1725, métier à tisser de Basile
Bouchon (Arts et métiers)
● 1801, métier Jacquard
● 1834, la machine analytique de
Charles Babbage (mécanique à
vapeur)
● 1887, carte perforée Herman
Hollerith, traitement
mécanographique du
recensement US
● 1896, carte perforée IBM
● 1930, Bull-Atos en France
● 1970, disparition de la carte
perforée
S7. Les supports optiques
● photo, texte, audio, vidéo,
informatique / analog. num.
● 1839, daguerréotype, …
microfilm, microfiche
● 1884, enregistrement analogique
audio sur disque de verre, Volta
laboratory US
● 1982-, disque CD audio, Philips
et Sony, 0,74 Go
● CD ROM, CD Video, Read
Write
● DVD, Blu-Ray, etc…
S8. Les supports magnétiques
● texte, photo, audio, vidéo,
informatique / analog. num.
● 1898, Enregistreur audio sur fil,
télégraphone Poulsen
(Danemark)
● 1948, enregistrement
télédiffusion sur bande Ampex
200, Bing Crosby show
● 1956, disque dur magnétique,
RAMAC 305, IBM
● 1963, cassette audio Philips
● Disquettes 8, 5.25, 3.5 pouces
S9. Mém. électron. persistantes
Résistance aux chocs,
consommation électrique faible.
● 1971, EPROM Intel (ROM)
● 1988, Mémoire Flash : app. photo,
caméras, smartphone, portable
● 1990, clé USB
● carte SD, mini SD, micro SD,
CompactFlash,
● Disque SSD ordinateurs
portables et fixes, rapidité du
démarrage
T0. Transmission de l’info
● Auguste, Cursus publicus
● 1792, sémaphore
● 1840, télégraphe (morse,
code Baudot)
● 1877, téléphone fixe
● 1976, tél. mobile (4G)
● 1990, Internet (backbone,
FTTH + mémoire distante)
● Plus loin, plus vite, plus
fort, moins cher, plus
sécurisé (censure,
espionnage, piratage),
ondes avec signal crypté
T1. Internet as a network
Commutation de paquets
● 1983, protocole TCP/IP
Transmission Control Protocol / Internet
Protocol
Commutation de circuit
● 1878-1978, opératrice tél.
T2. Internet as a storage medium
Internet : réseaux d’ordinateurs connectés par le
protocole (TCP/IP); messagerie, web, pair à pair, FTP ...
● 1983, TCP/IP sur ARPANET,
Vinton Cerf & Axel Kahn
● 1989, fournisseurs
commerciaux d’accès à
Internet, US, Australie, mail
● 1990, Tim Berners-Lee
développe http, html, 1er
navigateur, 1er serveur -
mémoire, 1ère page Web,
modèle client-serveur
● 1994, W3C : Un seul web partout et pour
tous
● 1969-1990, ARPANET
(ARPA)
● 1970-1978, Cyclades France
(INRIA)
● 1981-1996, Bitnet
● 1985-1995, NSFNet
remplace ARPANET en
1990
● 1990, liaison
transatlantique (1.5
Mbits/s) NSFNet -- CERN
T3. Médias de masse
● Le discours sur l’agora, l’enseigne, le tract, l’affiche, le
théâtre (Babylone, Grèce, Rome), presse écrite (1605,
Strasbourg), cinéma (1891), radiodiffusion (1906),
télévision (1947).
● 1920, émergence de canaux spécifiques pour la diffusion
de masse, les “médias” s’imposent.
● 1990, Internet = médias revisités : texte, photo, audio,
vidéos, 3D, carte ...
● Expression spécifique des médias (4ème pouvoir ?)
● “The medium is the message” Marshall McLuhan
T4. Le numérique, un vieux truc
1. Mémoires locales et distantes
2. Réseau (modem acoustique)
3. Logique : OS sur
microprocesseur (1971, Intel
C4004)
● 1977, Ordinateur personnel
Apple II
● Tournant culturel : la
génération Y (digital-natives)
● Un vieux truc, qui bouge !
T5. Usages du numérique
● Écrit : blog, réseaux sociaux,
journaux, livre, encyclopédie,
moteur de recherche
● Télécommunications : mail,
téléphone, visioconférence
● Médias : photo, son, radiodiffusion,
télévision, vidéo (à la demande)
● Monnaie et commerce : hôtels,
transports, achats, ventes, banque...
● Et les archives dans tout cela ?
H0. Pratiques et théories
● Pratiques -- règles, normes, modèles -- théories
● Évolution des pratiques : pratique 1 -> pratique 2
● Aspect générique, prédictif, esthétique des théories
● Élaborer des normes, des modèles et des théories : pour
transformer un art en science
Pratique 1 Théorie 1Pratique 2 Théorie 2
Règles 1
Modèle 2
Normes 2
H1. Théorie des trois âges
● Un document suit un cycle de vie composé de trois phases :
a. Archives courantes, dossiers actifs
b. Archives intermédiaires, dossiers clôturés
c. Archives historiques, tri, dossiers inactifs, patrimoine
● Respect des fonds, principe de provenance
H2. L’archivage numérique
Pratiques d’archivage numérique :
● Règle 1 : Classer, nommer, ajouter des métadonnées
● Règle 2 : Dupliquer l’information en sauvegarde
● Règle 3 : Changer de format lorsque nécessaire
● Règle 4 : Changer de matériel tous les 5 ans !
H10. Le modèle OAIS
Perte de données. Comment construire des archives
numériques dignes de confiance ?
● Attribuer des rôles :
● Producteur (Submission Information Package)
● Gestionnaire et administrateur (Archival Info. Package)
● Consommateur, public cible (Diffusion Info. Package)
● Spécifier des entités fonctionnelles : contrôle des
accès, mémorisation des données et métadonnées,
transmission de flux, duplication pour préservation,
calcul de la somme de contrôle des fichiers, vérification
de la stabilité de la somme, audit de l’archive.
H11. Le modèle OAIS
Modèle conceptuel OAIS (Open Archival Information
System) : gestion, archivage et préservation à long terme
de paquets d’information numérique. Norme ISO 14721
(2002)
H12. Bulle-enveloppe et AIP
Le premier AIP “Paquet
d’information d’archive” :
Métadonnées + Données
H13. Entrepôts de confiance
Données et
Métadonnées
Entrepôts de
confiance
Bulle-enveloppe,
tablettes terre, papiers,
images, médias, code
informatique
Archives (nationales,
locales, de chercheur,
familiales, informatiques)
Rouleaux, codex, livres,
revues, journaux, articles
publiés, dictionnaires
Bibliothèque
Oeuvre d’art, traditions
populaires, techniques,
expositions
Musée
Monnaie,
crypto-monnaies
Banque (informatique
bancaire 1957)
Contrat d’assurance Compagnie d’assurance
Brevet Office de brevets
Institutions et entreprises
concernées par le numérique
depuis les années 1960
H20. La théorie de l’information
● Claude Shannon, 1916 - 2001
● L’analyseur différentiel de
Vanevar Bush, 1936
● Theory of communication, 1948
● Laboratoires, Bell 1941 - 1972
● MIT, 1958 - 1978
H21. Shannon de 1916 à 1940
● Claude Shannon Sr (homme d’affaire) et
Mabel Catherine Wolf (principale collège
Gaylord, Michigan)
● Loisirs, job : jonglage, club radio,
fabrication d’un télégraphe, coursier
● Admire Edison, lit George Boole
● 1936, double licence en Génie électrique et
Mathématique au MIT, Cambridge,
Massachusetts, analyseur différentiel
● 1940, thèse de doctorat en théorie de la
génétique des populations & math, MIT
● 1940, National Research Fellowship à
Princeton, New Jersey
● 1940, Bell Labs, New Jersey
H22. Publis précédant la théorie
● A symbolic analysis of relay and switching circuits, master
these, 1937
● An algebra for theoretical genetics, PhD these, 1940
Au NDRC (National Defense Research Committee), V. Bush,
N. Wiener :
● 1941-1946, 5 articles sur la théorie du fonctionnement de
machines automatiques de tir antiaérien
Chez Bell Laboratories, W. Weaver :
● 1940-1944, 6 articles sur les relais et la PCM
● A mathematical theory of cryptography, 1945, article classé
● 1946-1948, 10 articles sur les canaux, les réseaux, les
processus aléatoires et le bruit
H23. Qu’est ce que c’est ?
“A mathematical theory of communication”, 1948, Bell
System Technical Journal
● Théorie de physique statistique relative à la nature de
l’information, à son encodage en signal et à sa
transmission dans un canal imparfait.
● Comment quantifier l’information ?
● Comment encoder un message pour optimiser sa
transmission dans des canaux de capacité limitée ?
● Comment transmettre sans erreur un signal dans un
canal en présence de bruit ?
H24. Aspect physique de l’info.
Aspect sémantique Linguistique non traité
Aspect physique Signal numérique OK
Signal analogique
Signal mixte
“Le problème fondamental de la communication est celui
de reproduire en un point, soit exactement soit
approximativement un message sélectionné à un autre
point”. Deux aspects de l’information :
H25. Modèle de Shannon Weaver
● Source d'information, envoie un message
● Transmetteur transforme le message en signal
● Canal de communication, transmet le signal
● Source de bruit, erreur dans le signal
● Récepteur transforme le signal en message
● Destinataire, réceptionne le message
H26. Une question de logique
Le choix alternatif (perforation ou non d’un emplacement
sur une carte, relai en 0 ou 1, oui ou non, A ou B) définit le
bit (binary digit = chiffre binaire)
● bit = variable discrète, unité de mesure de l’information
● Encodage en puissance de 2 bits (2, 4, 8, 16, 32 bits)
optimise la performance des canaux
● ex : les 26 lettres de l'alphabet nécessitent au moins 5
bits pour être encodées car :
{(2⁴ = 16) et (16 < 26)} et {(2⁵ = 32) et (32 > 26)}
log2(26) = 4,7 => 5 bits
H27. Une question de statistique
Dans le cadre du modèle, en absence de bruit et avec un
signal discret, l’entropie H mesure statistiquement la
quantité d'information délivrée par une source
d'information, ou bien l’incertitude quant à sa réception.
● L’entropie informationnelle en bits est le logarithme en
base 2 du nombre de choix possibles
● Pour optimiser la transmission d’un signal binaire : la
fréquence des 0 et des 1 doit être égale à 0,5
● Formule identique à l’entropie de Boltzmann
H28. Domaines d’application
Un modèle facile à comprendre, un article difficile à lire qui
fédère une petite communauté de théoriciens. Domaines
d’applications possibles :
● Télécommunications, télédiffusion
● Informatique, cryptographie, compression, numérisation
● Biologie moléculaire
● Sciences de l’information ?
● Neurologie, transmission du message nerveux ?
Domaines peu adaptés (la sémantique est primordiale) :
● Littérature, psychologie, sociologie, sciences politiques...
H30. Code génétique
Le problème fondamental de la nature est celui de
reproduire approximativement en un point une population
présente en un autre point. La nature dispose pour cela de
3 outils :
● Génétique (ADN *, ARN, épigénétique)
● Neurologie : système nerveux central et périphérique
● Culture (connaissances individuelles acquises,
patrimoine social inter-générationnel, …, machines *)
* Information quantifiable en bits
H31. Génome humain en bits
● Intérêt philosophique du lien entre information
génétique et information de Shannon
● ADN : polymère en double hélice constitué de 4 paires de
bases nucléiques (A, G, C, T)
● Un génome humain haploïde = 3 milliards de paires de
bases (20 000 gènes)
● Une cellule diploïde = 6 milliards pb (duplication info.)
● Chaque paire de base contient 2 bits d’info. (00, 01, 10, 11
pour A, G, C, T). Un octet (8 bits) encode 4 pb
● 1,5 gigaoctet (2 CD) d’info. dans chaque cellule humaine
● 26 milliards de cellules humaines à la naissance
Photos
Les procès-verbaux du Bureau des longitudes
Un patrimoine numérisé (1795-1932)
Le site Internet : http://bdl.ahp-numerique.fr
B0. La visionneuse
B1. Le workflow
Données (Paris-Dunkerque)
numérisation → fichiers JPEG et TIFF
Métadonnées enrichies (Paris-Nancy)
récolement enrichi + transcription et
annotations
1/ Site web sur les serveurs
d’Huma-Num
Accès public, aux procès
verbaux et aux transcription
Accès privé, à l’administration
2/ Archivage pérenne
Accès privé, sauvegarde des
données, des métadonnées et
des transcriptions
(Nancy / Huma-Num)
B2. Transcription
des PV
B3. Un projet du LHSP-AHP
● http://bdl.ahp-numerique.fr/
● Travail scientifique (M. Schiavon, L. Rollet ...),
technique et graphique (J. Muller, S. Girod, P.
Couchet ...) sur Paris, Dunkerque (CADN) et Nancy
● Omeka, données ouvertes, facilite les collaborations
scientifiques interdisciplinaires, projet ANR 2016
Creative Commons 3.0 Partage à l’identique
Attribution (citation)
Conclusion 1
● Caractère hybride des archives (papier, électronique)
○ Créer des liens entre supports : métadonnées
● Caractère unifiant des théories
Conclusion 2
Être ou ne pas être : telle est
la question
Je pensais appeler cela
“information” mais le mot était
excessivement employé, alors j’ai
décidé d’appeler cela
“incertitude”
Origine archives-shannon-2017-10-12

Weitere ähnliche Inhalte

Ähnlich wie Origine archives-shannon-2017-10-12

Histoire du numérique dans l'art et la culture
Histoire du numérique dans l'art et la cultureHistoire du numérique dans l'art et la culture
Histoire du numérique dans l'art et la cultureJpsd consultant
 
Journée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc GauvreauJournée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc Gauvreaumontrealouvert
 
Histoire économique du numérique et de l'Internet
Histoire économique du numérique et de l'Internet Histoire économique du numérique et de l'Internet
Histoire économique du numérique et de l'Internet sylvain dejean
 
Valoriser les biens culturels par l'innovation
Valoriser les biens culturels par l'innovationValoriser les biens culturels par l'innovation
Valoriser les biens culturels par l'innovationJpsd consultant
 
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérienceSauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expériencePhonothèque MMSH
 
Numérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectivesNumérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectivesClément Dussarps
 
Les données de l’administration à travers le temps ou comment valoriser un pa...
Les données de l’administration à travers le temps ou comment valoriser un pa...Les données de l’administration à travers le temps ou comment valoriser un pa...
Les données de l’administration à travers le temps ou comment valoriser un pa...eGov Innovation Center
 
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...ABES
 
Histoire et anthropologie de l'internet, 1ère partie
Histoire et anthropologie de l'internet, 1ère partieHistoire et anthropologie de l'internet, 1ère partie
Histoire et anthropologie de l'internet, 1ère partieAlexandre Serres
 
Matières sonores : recherche, archive et création : les multiples vies des ar...
Matières sonores : recherche, archive et création : les multiples vies des ar...Matières sonores : recherche, archive et création : les multiples vies des ar...
Matières sonores : recherche, archive et création : les multiples vies des ar...Phonothèque MMSH
 
France Saïe-Belaisch_ppt
France Saïe-Belaisch_pptFrance Saïe-Belaisch_ppt
France Saïe-Belaisch_pptAssociationAF
 
Europeana Factsheet - French - June 2013
Europeana Factsheet - French - June 2013Europeana Factsheet - French - June 2013
Europeana Factsheet - French - June 2013Europeana
 
Panorama du numérique au musée Première partie
Panorama du numérique au musée Première partiePanorama du numérique au musée Première partie
Panorama du numérique au musée Première partieYves-Armel Martin
 
Thetalk fra-version
Thetalk fra-versionThetalk fra-version
Thetalk fra-versionLou Burnard
 
Ina formation collecterarchives2012
Ina formation collecterarchives2012Ina formation collecterarchives2012
Ina formation collecterarchives2012Casse2
 
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...Jpsd consultant
 

Ähnlich wie Origine archives-shannon-2017-10-12 (20)

Histoire du numérique dans l'art et la culture
Histoire du numérique dans l'art et la cultureHistoire du numérique dans l'art et la culture
Histoire du numérique dans l'art et la culture
 
Journée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc GauvreauJournée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc Gauvreau
 
Histoire économique du numérique et de l'Internet
Histoire économique du numérique et de l'Internet Histoire économique du numérique et de l'Internet
Histoire économique du numérique et de l'Internet
 
Valoriser les biens culturels par l'innovation
Valoriser les biens culturels par l'innovationValoriser les biens culturels par l'innovation
Valoriser les biens culturels par l'innovation
 
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérienceSauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
 
Numérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectivesNumérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectives
 
Les données de l’administration à travers le temps ou comment valoriser un pa...
Les données de l’administration à travers le temps ou comment valoriser un pa...Les données de l’administration à travers le temps ou comment valoriser un pa...
Les données de l’administration à travers le temps ou comment valoriser un pa...
 
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...
Jabes 2012 - Intervention sponsor - Libérer le potentiel des collections hist...
 
Une histoire de la communication
Une histoire de la communicationUne histoire de la communication
Une histoire de la communication
 
Histoire et anthropologie de l'internet, 1ère partie
Histoire et anthropologie de l'internet, 1ère partieHistoire et anthropologie de l'internet, 1ère partie
Histoire et anthropologie de l'internet, 1ère partie
 
Matières sonores : recherche, archive et création : les multiples vies des ar...
Matières sonores : recherche, archive et création : les multiples vies des ar...Matières sonores : recherche, archive et création : les multiples vies des ar...
Matières sonores : recherche, archive et création : les multiples vies des ar...
 
France Saïe-Belaisch_ppt
France Saïe-Belaisch_pptFrance Saïe-Belaisch_ppt
France Saïe-Belaisch_ppt
 
Europeana Factsheet - French - June 2013
Europeana Factsheet - French - June 2013Europeana Factsheet - French - June 2013
Europeana Factsheet - French - June 2013
 
Diaporama séminaire recherche de l’UMR 5600 Environnement, villes et société...
Diaporama  séminaire recherche de l’UMR 5600 Environnement, villes et société...Diaporama  séminaire recherche de l’UMR 5600 Environnement, villes et société...
Diaporama séminaire recherche de l’UMR 5600 Environnement, villes et société...
 
Panorama du numérique au musée Première partie
Panorama du numérique au musée Première partiePanorama du numérique au musée Première partie
Panorama du numérique au musée Première partie
 
Thetalk fra-version
Thetalk fra-versionThetalk fra-version
Thetalk fra-version
 
Ina formation collecterarchives2012
Ina formation collecterarchives2012Ina formation collecterarchives2012
Ina formation collecterarchives2012
 
1207 partage et innovation
1207 partage et innovation1207 partage et innovation
1207 partage et innovation
 
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...
Mobilité et nouveaux services multimédias dans les expositions (exposé de 2...
 
Jdll
JdllJdll
Jdll
 

Mehr von Pierre Couchet

Journees ahp-20210119-web
Journees ahp-20210119-webJournees ahp-20210119-web
Journees ahp-20210119-webPierre Couchet
 
Bdl omeka-20201013 pc-jm_fs
Bdl omeka-20201013 pc-jm_fsBdl omeka-20201013 pc-jm_fs
Bdl omeka-20201013 pc-jm_fsPierre Couchet
 
Cartographie des items avec Omeka Classic
Cartographie des items avec Omeka ClassicCartographie des items avec Omeka Classic
Cartographie des items avec Omeka ClassicPierre Couchet
 
Omeka nantes-2016-couchet
Omeka nantes-2016-couchetOmeka nantes-2016-couchet
Omeka nantes-2016-couchetPierre Couchet
 
Le Bureau des longitudes de 1795 à 1935
Le Bureau des longitudes de 1795 à 1935Le Bureau des longitudes de 1795 à 1935
Le Bureau des longitudes de 1795 à 1935Pierre Couchet
 
Omeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesOmeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesPierre Couchet
 

Mehr von Pierre Couchet (8)

Journees ahp-20210119-web
Journees ahp-20210119-webJournees ahp-20210119-web
Journees ahp-20210119-web
 
Bdl omeka-20201013 pc-jm_fs
Bdl omeka-20201013 pc-jm_fsBdl omeka-20201013 pc-jm_fs
Bdl omeka-20201013 pc-jm_fs
 
Cartographie des items avec Omeka Classic
Cartographie des items avec Omeka ClassicCartographie des items avec Omeka Classic
Cartographie des items avec Omeka Classic
 
20161122 colloque-bdl
20161122 colloque-bdl20161122 colloque-bdl
20161122 colloque-bdl
 
Omeka nantes-2016-couchet
Omeka nantes-2016-couchetOmeka nantes-2016-couchet
Omeka nantes-2016-couchet
 
Le Bureau des longitudes de 1795 à 1935
Le Bureau des longitudes de 1795 à 1935Le Bureau des longitudes de 1795 à 1935
Le Bureau des longitudes de 1795 à 1935
 
Omeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesOmeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériques
 
omeka couchet 2013
omeka couchet 2013omeka couchet 2013
omeka couchet 2013
 

Origine archives-shannon-2017-10-12

  • 1. De l’origine des archives aux travaux de Shannon Colloque “Pratiques numériques”, le 12/10/2017 Centre National du Microfilm et de la Numérisation, Espeyran Pierre Couchet, Université de Lorraine, CNRS
  • 2. L’odyssée des archives, la transmission de l’information, le tournant numérique, la théorie de Shannon, le Bureau des longitudes
  • 3. Plan Informaticien au Laboratoire d’Histoire des Sciences et de Philosophie - Archives Henri Poincaré; documentaliste génétique, base PASCAL (années 90) ● Les supports de l’information (S0 à S9) ● La transmission de l’information (T0 à T5) ● Pratiques et théories d’archivistique (H0 à H2) ● Le modèle OAIS (H10 à H13) ● La théorie de l’information (H20 à H32) ● Le Bureau des longitudes (B0 à B3) ● Conclusions
  • 4. S0. La bulle-enveloppe d’argile ● 7500 à 3500 av. J.-C., à Uruk et dans les cités mésopotamiennes ● Bulle-enveloppe et ses jetons de comptabilité. Terre cuite creuse, Musée du Louvre ● Contrat entre agriculteurs (peuple), impôts en nature dûs au roi-prêtre (pouvoir) ● Contenu numérique (à l’intérieur) et écrit (extérieur), un seau preuve d’authenticité, bulle brisée en fin de contrat (proto-monnaie) ● Archives = Histoire = Écriture = Information textuelle et numérique
  • 5. S1. La tablette d’argile ● 3500 à 150 av. J.-C., scribes sur tablette d’argile en Mésopotamie / Mycènes ● Cunéiforme, calame, plusieurs langues : sumérien, babylonien / Linéaire B ● Administration privée et publique, textes scolaires, politiques, droit, militaires, religieux, littéraires et scientifiques -> bibliothèque ● Maths : bases 10, 60, 360
  • 6. S2. Le papyrus ● 3000 av. J.-C. à +300, ● 2600 av. J.-C., le scribe accroupi, statue Louvre ● Delta du Nil, monopole, export en méditerranée ● Papyrus, encre, rouleau, le volumen ● Administration, textes scolaires, politiques, militaires, droit, religieux, scientifiques ● Maths : base 10 / pas de 0 ● -> Archives et bibliothèque
  • 7. S3. Le parchemin ● 200 av. J.-C. - XVème siècle ● Codex : possibilité de plier la feuille ● Organisation en pages, couverture, titre, chapitre, table des matières, index ● Structure hiérarchique aisée ● Lecture silencieuse, apparition du roman ● Livres précieux, chartes, archives définitives ● Coût important
  • 8. S4. Le papier ● 200 av. J.-C. Chine et Japon, 751 monde Arabe, 1056 Espagne, 1102 Sicile, Italie, Europe XIIème au XIVème, 1450 imprimerie Gutenberg ● +100 au XVII ème, l’amate en amérique centrale ● Courrier, tract, post-it, affiche ● Livre, Rapport, journaux et presse ● VIII ème siècle en Chine, 1658 à Stockolm, monnaie, contrat ● Coût réduitun tapuscrit en forme de blog !
  • 9. S5. La cire ● 1400 av. J.-C. - 19ème siècle, mycéniens, phéniciens, Grèce, Rome ● Écriture avec un stylet sur tablettes et codex ● Notes, brouillon, apprentissage, comptes, correspondance privée, vote judiciaire à Rome ● 1877, phonographe, cylindre de cire (Edison) ● 1887-, disques vinyles
  • 10. S6. La carte perforée ● 1725, métier à tisser de Basile Bouchon (Arts et métiers) ● 1801, métier Jacquard ● 1834, la machine analytique de Charles Babbage (mécanique à vapeur) ● 1887, carte perforée Herman Hollerith, traitement mécanographique du recensement US ● 1896, carte perforée IBM ● 1930, Bull-Atos en France ● 1970, disparition de la carte perforée
  • 11. S7. Les supports optiques ● photo, texte, audio, vidéo, informatique / analog. num. ● 1839, daguerréotype, … microfilm, microfiche ● 1884, enregistrement analogique audio sur disque de verre, Volta laboratory US ● 1982-, disque CD audio, Philips et Sony, 0,74 Go ● CD ROM, CD Video, Read Write ● DVD, Blu-Ray, etc…
  • 12. S8. Les supports magnétiques ● texte, photo, audio, vidéo, informatique / analog. num. ● 1898, Enregistreur audio sur fil, télégraphone Poulsen (Danemark) ● 1948, enregistrement télédiffusion sur bande Ampex 200, Bing Crosby show ● 1956, disque dur magnétique, RAMAC 305, IBM ● 1963, cassette audio Philips ● Disquettes 8, 5.25, 3.5 pouces
  • 13. S9. Mém. électron. persistantes Résistance aux chocs, consommation électrique faible. ● 1971, EPROM Intel (ROM) ● 1988, Mémoire Flash : app. photo, caméras, smartphone, portable ● 1990, clé USB ● carte SD, mini SD, micro SD, CompactFlash, ● Disque SSD ordinateurs portables et fixes, rapidité du démarrage
  • 14. T0. Transmission de l’info ● Auguste, Cursus publicus ● 1792, sémaphore ● 1840, télégraphe (morse, code Baudot) ● 1877, téléphone fixe ● 1976, tél. mobile (4G) ● 1990, Internet (backbone, FTTH + mémoire distante) ● Plus loin, plus vite, plus fort, moins cher, plus sécurisé (censure, espionnage, piratage), ondes avec signal crypté
  • 15. T1. Internet as a network Commutation de paquets ● 1983, protocole TCP/IP Transmission Control Protocol / Internet Protocol Commutation de circuit ● 1878-1978, opératrice tél.
  • 16. T2. Internet as a storage medium Internet : réseaux d’ordinateurs connectés par le protocole (TCP/IP); messagerie, web, pair à pair, FTP ... ● 1983, TCP/IP sur ARPANET, Vinton Cerf & Axel Kahn ● 1989, fournisseurs commerciaux d’accès à Internet, US, Australie, mail ● 1990, Tim Berners-Lee développe http, html, 1er navigateur, 1er serveur - mémoire, 1ère page Web, modèle client-serveur ● 1994, W3C : Un seul web partout et pour tous ● 1969-1990, ARPANET (ARPA) ● 1970-1978, Cyclades France (INRIA) ● 1981-1996, Bitnet ● 1985-1995, NSFNet remplace ARPANET en 1990 ● 1990, liaison transatlantique (1.5 Mbits/s) NSFNet -- CERN
  • 17. T3. Médias de masse ● Le discours sur l’agora, l’enseigne, le tract, l’affiche, le théâtre (Babylone, Grèce, Rome), presse écrite (1605, Strasbourg), cinéma (1891), radiodiffusion (1906), télévision (1947). ● 1920, émergence de canaux spécifiques pour la diffusion de masse, les “médias” s’imposent. ● 1990, Internet = médias revisités : texte, photo, audio, vidéos, 3D, carte ... ● Expression spécifique des médias (4ème pouvoir ?) ● “The medium is the message” Marshall McLuhan
  • 18. T4. Le numérique, un vieux truc 1. Mémoires locales et distantes 2. Réseau (modem acoustique) 3. Logique : OS sur microprocesseur (1971, Intel C4004) ● 1977, Ordinateur personnel Apple II ● Tournant culturel : la génération Y (digital-natives) ● Un vieux truc, qui bouge !
  • 19. T5. Usages du numérique ● Écrit : blog, réseaux sociaux, journaux, livre, encyclopédie, moteur de recherche ● Télécommunications : mail, téléphone, visioconférence ● Médias : photo, son, radiodiffusion, télévision, vidéo (à la demande) ● Monnaie et commerce : hôtels, transports, achats, ventes, banque... ● Et les archives dans tout cela ?
  • 20. H0. Pratiques et théories ● Pratiques -- règles, normes, modèles -- théories ● Évolution des pratiques : pratique 1 -> pratique 2 ● Aspect générique, prédictif, esthétique des théories ● Élaborer des normes, des modèles et des théories : pour transformer un art en science Pratique 1 Théorie 1Pratique 2 Théorie 2 Règles 1 Modèle 2 Normes 2
  • 21. H1. Théorie des trois âges ● Un document suit un cycle de vie composé de trois phases : a. Archives courantes, dossiers actifs b. Archives intermédiaires, dossiers clôturés c. Archives historiques, tri, dossiers inactifs, patrimoine ● Respect des fonds, principe de provenance
  • 22. H2. L’archivage numérique Pratiques d’archivage numérique : ● Règle 1 : Classer, nommer, ajouter des métadonnées ● Règle 2 : Dupliquer l’information en sauvegarde ● Règle 3 : Changer de format lorsque nécessaire ● Règle 4 : Changer de matériel tous les 5 ans !
  • 23. H10. Le modèle OAIS Perte de données. Comment construire des archives numériques dignes de confiance ? ● Attribuer des rôles : ● Producteur (Submission Information Package) ● Gestionnaire et administrateur (Archival Info. Package) ● Consommateur, public cible (Diffusion Info. Package) ● Spécifier des entités fonctionnelles : contrôle des accès, mémorisation des données et métadonnées, transmission de flux, duplication pour préservation, calcul de la somme de contrôle des fichiers, vérification de la stabilité de la somme, audit de l’archive.
  • 24. H11. Le modèle OAIS Modèle conceptuel OAIS (Open Archival Information System) : gestion, archivage et préservation à long terme de paquets d’information numérique. Norme ISO 14721 (2002)
  • 25. H12. Bulle-enveloppe et AIP Le premier AIP “Paquet d’information d’archive” : Métadonnées + Données
  • 26. H13. Entrepôts de confiance Données et Métadonnées Entrepôts de confiance Bulle-enveloppe, tablettes terre, papiers, images, médias, code informatique Archives (nationales, locales, de chercheur, familiales, informatiques) Rouleaux, codex, livres, revues, journaux, articles publiés, dictionnaires Bibliothèque Oeuvre d’art, traditions populaires, techniques, expositions Musée Monnaie, crypto-monnaies Banque (informatique bancaire 1957) Contrat d’assurance Compagnie d’assurance Brevet Office de brevets Institutions et entreprises concernées par le numérique depuis les années 1960
  • 27. H20. La théorie de l’information ● Claude Shannon, 1916 - 2001 ● L’analyseur différentiel de Vanevar Bush, 1936 ● Theory of communication, 1948 ● Laboratoires, Bell 1941 - 1972 ● MIT, 1958 - 1978
  • 28. H21. Shannon de 1916 à 1940 ● Claude Shannon Sr (homme d’affaire) et Mabel Catherine Wolf (principale collège Gaylord, Michigan) ● Loisirs, job : jonglage, club radio, fabrication d’un télégraphe, coursier ● Admire Edison, lit George Boole ● 1936, double licence en Génie électrique et Mathématique au MIT, Cambridge, Massachusetts, analyseur différentiel ● 1940, thèse de doctorat en théorie de la génétique des populations & math, MIT ● 1940, National Research Fellowship à Princeton, New Jersey ● 1940, Bell Labs, New Jersey
  • 29. H22. Publis précédant la théorie ● A symbolic analysis of relay and switching circuits, master these, 1937 ● An algebra for theoretical genetics, PhD these, 1940 Au NDRC (National Defense Research Committee), V. Bush, N. Wiener : ● 1941-1946, 5 articles sur la théorie du fonctionnement de machines automatiques de tir antiaérien Chez Bell Laboratories, W. Weaver : ● 1940-1944, 6 articles sur les relais et la PCM ● A mathematical theory of cryptography, 1945, article classé ● 1946-1948, 10 articles sur les canaux, les réseaux, les processus aléatoires et le bruit
  • 30. H23. Qu’est ce que c’est ? “A mathematical theory of communication”, 1948, Bell System Technical Journal ● Théorie de physique statistique relative à la nature de l’information, à son encodage en signal et à sa transmission dans un canal imparfait. ● Comment quantifier l’information ? ● Comment encoder un message pour optimiser sa transmission dans des canaux de capacité limitée ? ● Comment transmettre sans erreur un signal dans un canal en présence de bruit ?
  • 31. H24. Aspect physique de l’info. Aspect sémantique Linguistique non traité Aspect physique Signal numérique OK Signal analogique Signal mixte “Le problème fondamental de la communication est celui de reproduire en un point, soit exactement soit approximativement un message sélectionné à un autre point”. Deux aspects de l’information :
  • 32. H25. Modèle de Shannon Weaver ● Source d'information, envoie un message ● Transmetteur transforme le message en signal ● Canal de communication, transmet le signal ● Source de bruit, erreur dans le signal ● Récepteur transforme le signal en message ● Destinataire, réceptionne le message
  • 33. H26. Une question de logique Le choix alternatif (perforation ou non d’un emplacement sur une carte, relai en 0 ou 1, oui ou non, A ou B) définit le bit (binary digit = chiffre binaire) ● bit = variable discrète, unité de mesure de l’information ● Encodage en puissance de 2 bits (2, 4, 8, 16, 32 bits) optimise la performance des canaux ● ex : les 26 lettres de l'alphabet nécessitent au moins 5 bits pour être encodées car : {(2⁴ = 16) et (16 < 26)} et {(2⁵ = 32) et (32 > 26)} log2(26) = 4,7 => 5 bits
  • 34. H27. Une question de statistique Dans le cadre du modèle, en absence de bruit et avec un signal discret, l’entropie H mesure statistiquement la quantité d'information délivrée par une source d'information, ou bien l’incertitude quant à sa réception. ● L’entropie informationnelle en bits est le logarithme en base 2 du nombre de choix possibles ● Pour optimiser la transmission d’un signal binaire : la fréquence des 0 et des 1 doit être égale à 0,5 ● Formule identique à l’entropie de Boltzmann
  • 35. H28. Domaines d’application Un modèle facile à comprendre, un article difficile à lire qui fédère une petite communauté de théoriciens. Domaines d’applications possibles : ● Télécommunications, télédiffusion ● Informatique, cryptographie, compression, numérisation ● Biologie moléculaire ● Sciences de l’information ? ● Neurologie, transmission du message nerveux ? Domaines peu adaptés (la sémantique est primordiale) : ● Littérature, psychologie, sociologie, sciences politiques...
  • 36. H30. Code génétique Le problème fondamental de la nature est celui de reproduire approximativement en un point une population présente en un autre point. La nature dispose pour cela de 3 outils : ● Génétique (ADN *, ARN, épigénétique) ● Neurologie : système nerveux central et périphérique ● Culture (connaissances individuelles acquises, patrimoine social inter-générationnel, …, machines *) * Information quantifiable en bits
  • 37. H31. Génome humain en bits ● Intérêt philosophique du lien entre information génétique et information de Shannon ● ADN : polymère en double hélice constitué de 4 paires de bases nucléiques (A, G, C, T) ● Un génome humain haploïde = 3 milliards de paires de bases (20 000 gènes) ● Une cellule diploïde = 6 milliards pb (duplication info.) ● Chaque paire de base contient 2 bits d’info. (00, 01, 10, 11 pour A, G, C, T). Un octet (8 bits) encode 4 pb ● 1,5 gigaoctet (2 CD) d’info. dans chaque cellule humaine ● 26 milliards de cellules humaines à la naissance
  • 39. Les procès-verbaux du Bureau des longitudes Un patrimoine numérisé (1795-1932) Le site Internet : http://bdl.ahp-numerique.fr
  • 40.
  • 41.
  • 43. B1. Le workflow Données (Paris-Dunkerque) numérisation → fichiers JPEG et TIFF Métadonnées enrichies (Paris-Nancy) récolement enrichi + transcription et annotations 1/ Site web sur les serveurs d’Huma-Num Accès public, aux procès verbaux et aux transcription Accès privé, à l’administration 2/ Archivage pérenne Accès privé, sauvegarde des données, des métadonnées et des transcriptions (Nancy / Huma-Num)
  • 45. B3. Un projet du LHSP-AHP ● http://bdl.ahp-numerique.fr/ ● Travail scientifique (M. Schiavon, L. Rollet ...), technique et graphique (J. Muller, S. Girod, P. Couchet ...) sur Paris, Dunkerque (CADN) et Nancy ● Omeka, données ouvertes, facilite les collaborations scientifiques interdisciplinaires, projet ANR 2016 Creative Commons 3.0 Partage à l’identique Attribution (citation)
  • 46. Conclusion 1 ● Caractère hybride des archives (papier, électronique) ○ Créer des liens entre supports : métadonnées ● Caractère unifiant des théories
  • 47. Conclusion 2 Être ou ne pas être : telle est la question Je pensais appeler cela “information” mais le mot était excessivement employé, alors j’ai décidé d’appeler cela “incertitude”