10 ans d’archivage numérique au CINES : premiers bilans et perspectives
1. 10 ans d’archivage numérique au CINES :
premiers bilans et perspectives
Lorène Béchard
bechard@cines.fr
Forum AAF - 30 mars 2016
2. • Evolution de la mission de préservation du CINES
• Evolutions de la plateforme technique
• Evolutions des ressources affectées à la préservation
• Evolutions des usages et des usagers
• Partenariats nationaux et internationaux
• Perspectives
Sommaire
3. Le Calcul de Haute Performance
OCCIGEN 2,1 Pflops (2,1 millions de milliards d’opérations
par seconde), 50 544 cœurs, 200 To de mémoire,
315000000 d’heures de calcul disponibles en 2015
La Conservation à long terme des
données et documents numériques
(Agrément du Service Interministériel des Archives
de France)
Des missions statutaires
nationales stratégiques
en synergie :
Des infrastructures tier 3 / 4
Fortement sécurisées disponibles 24h/24, 7j/7
• 1500 m2 sur 5 salles machines protégées
• 2000 m2 de locaux techniques
• 2 lignes électriques ERDF : 2,5 MW et 10 MW
onduleurs redondants + groupes électrogènes
• accès réseaux à haut débit (10 Gbits/s)
Des équipes (55) : expertise, support,
formations, exploitation, astreinte
Participation à des
projets Européens
Montpellier
Hébergement = activité permettant de mutualiser les infrastructures
Hébergement de plates-formes stratégiques de partenaires publics d’envergure nationale (ESR en priorité) :
- Baies entières ou serveurs dans baies CINES. Facturation basée sur nombre de baies et conso. électrique
- ABES, DSI Inserm, HPC@LR, Nœuds Renater et R3LR, ISSN, Cour des comptes, etc.
- contraintes : ne pas contrarier l’évolution des missions et les procédures d’exploitation associés
Infrastructure commune pour
Données Calcul
4. La mission d’archivage du CINES en quelques dates…
2004 20082006
1ères réflexions
sur l’archivage
numérique
Centre
archiveur des
thèses
dans PAC-V1
Mission archivage
confirmée dans
lettre de cadrage
+ Mise en production
de PAC_V2
2005
Prestation de conseil en
Archivage Electronique
recrutement d’une
archiviste
2007
Ouverture de PAC à d’autres
projets
Persée, HAL, biblio univ,
établissements de recherche,
universités
Besoin agrément SIAF (2010)
Besoin agrément santé (2014)
2010
1ère convention avec
durée de service
illimitée
2014
Mise à jour des
statuts du CINES
archivage pérenne
mission statutaire
5. Les candidats à l’archivage
Observations Résultats de calculs MailsDonnées de
gestion
Documents
numériques ou
numérisés
conserver
- Accélérateurs de particules
- Séquenceurs de génomes
- Capteurs utilisés en
météorologie/climatologie
- Points de tir en sismique
pétrolière ou données spatiales
- etc.
- Simulations multi-physiques,
multi échelles
- Augmentation de la
résolution des modèles
- Nouvelles thématiques
Avec des problèmes de
- Taille des données (nombre de fichiers, taille des fichiers, …)
- Métadonnées associées , identification unique
- Sécurisation
- Variété des formats (texte, image, son, vidéos, …)
- Manuscrits anciens
- Revues numérisées
- Thèses numériques
- etc.
à des communautés distribuées
diffuser
et pour objectif de
Archivage
intermédiaire
Archivage
pérenne
traiter
6. Evolutions* de la plateforme technique : au début
Entrées Stockage & gestion
des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées
(schéma CINES)
Validation formats
fichiers (pdf, images,
texte)
Création PID-PAC
Création AIP
Validation SIP
Recherches sur
l’ensemble des MD
indexées
Stockage en plusieurs
exemplaires sur disques
+ bandes + index BDDr
Externalisation d’une
copie transfert
manuel
Vérification des
données : au moins une
copie OK
Filtrage des accès Statistiques
(* : liste non exhaustive)
7. Evolutions* de la plateforme technique : vers 2010
Entrées Stockage & gestion
des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées
(schéma CINES)
+ renforcement AQ
(typage-MD, emprOri
oblig…)
Validation formats
fichiers (pdf, images,
texte, audio, vidéo…) +
traitement BIR
Création PID-PAC + ARK
Création AIP
Validation SIP
Recherches sur
l’ensemble des MD
indexées
Stockage en plusieurs
exemplaires sur disques
+ bandes + index BDDr
Externalisation d’une
copie transfert
manuel
Vérification des
données : au moins une
copie OK
Règles de gestion : versionning…
Migration de plateforme + Certification
Gestion des risques Processus métier Migration logique PPDI
Filtrage des accès
Restitution des données
au format SEDA
Statistiques
8. Evolutions* de la plateforme technique : 2014/2015
Entrées Stockage & gestion
des données
Accès
Administration
Planification de la pérennisation
Réception des données
Validation métadonnées
(CINES + SEDA)
+ renforcement AQ
(typage-MD, emprOri
oblig…)
Validation formats
fichiers + traitement BIR
Création PID-PAC + ARK
Création AIP
Validation SIP
Recherches sur
l’ensemble des MD
indexées
Stockage en plusieurs
exemplaires sur disques
+ bandes + index BDDr
Stockage modulable
Externalisation d’une
copie transfert auto
(site distant > 300km)
Vérification des
données : toutes les
copies OK + index OK +
contrôles métier
Recherches via plan de
classement
Règles de gestion : versionning, DUA, communicabilité…
Migrations plateformes + Certification + Renforcement sécurité (phys &logique)
Gestion des risques Processus métier Migration logique PPDI
Restitution des données
au format SEDA
Filtrage des accès Statistiques
9. Evolutions de la plateforme technique
Prévision de forte augmentation de la volumétrie :
• multiplication de données volumineuses (vidéos, images
en haute définition, observations satellites, …)
• prise en charge des « big data »
11. •RH : 13 agents dédiés en 2015 + mutualisation
(systèmes, réseau, sécurité, infrastructures, …)
Evolutions des ressources affectées à la préservation
0
2
4
6
8
10
12
14
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
3
4
5 5
7
11 11 12 12 12 13 13
Nombre de collaborateurs dédiés
Equivalents Temps Pleins
12. Evolutions des usages et usagers
• Thèses
• Ouvrages numérisés (Persée, BUs)
• Données de la recherche
• Données spatiales
Impacts :
• Prise en compte des spécificités du Code du Patrimoine (SEDA,
Communicabilité, etc.)
• Constitution du bordereau de versement » & définition de formats-pivots
plus difficile (moins standard) implication de scientifiques dans les process
• Adaptation des procédures quand elles ne sont pas directement applicables
(format de fichier non validable, etc.)
13. 13
Groupes de travail nationaux :
Groupes de travail internationaux :
CG46-CN 4
CN 171
ISO : PDF
Formations
Collaborations
SIAF (élimination,
journaux de logs,
SEDA, MEDONA,
VITAM…)
Pôles
disciplinaires :
ESGF
(climato),
THEIA
Positionnement national et à l’international
14. Perspectives
• Collaboration avec les autres opérateurs institutionnels - Partage
d’expérience et des infrastructures avec des partenaires nationaux
et internationaux
• Inscrire la France & l’ESR dans l’excellence internationale en matière
de préservation de l’information numérique.
• Relever le défi de la migration logique
• Sensibiliser / Convaincre les scientifiques de l’importance de
l’archivage de leurs données
• Faire face à l’explosion de la volumétrie