2. • Les bases de données constituent la mémoire
organisée de l’information
• Tendance : la disparition du fichier
• L’archivage des bases de données va au-delà de la
problématique classique liée aux fichiers numériques,
parce qu’il s’agit d’un objet complexe
• Nécessité d’une double compétence : archiviste /
informaticien
2
3. • Différents types d’organisation de l’information :
relationnelle
hiérarchique
RDF
entrepôt de
données
• Une description à plusieurs niveaux
– Conceptuel / Logique / Physique
• Des caractéristiques propres liées à l’usage qu’il en est fait
– BDD vivante / figée
– BDD cumulative / dynamique
3
7. Caractéristiques de la base
Nom courant
Description
Nom usuel utilisé dans l’entreprise pour identifier la
base
Application utilisant la base
Liste de tous les logiciels ou programmes informatique
en interaction avec la base de données. Il peut s’agir
par exemple d’un site web utilisant la base ou d’une
application spécifique à l’établissement.
Liste des utilisateurs
Liste des utilisateurs ou des groupes d’utilisateurs de la
base et des droits associés.
Pour chacun on notera l’application utilisée pour
interagir avec la base.
Système informatique
Identification et localisation des SGBD.
Information sur les paramétrages particuliers, les
sauvegardes etc.
Date de mise en service
Date de fin d’utilisation
Depuis quand utilise-t-on la base ?
Le SGBD est-il en fin de vie ou a-t-il une fin d’utilisation
programmée ?
Taille de la base
Nombre d’enregistrements
Mo/Go/To ?
Objectifs et fonctionnalités
Type de contenu
A quoi sert la base ? Que permet-elle de faire ?
Que contient la base : des données, des documents ? Y
a-t-il des données confidentielles ? Ces données sontelles également disponibles sur papier ? Y a t-il eu des
récupérations de données d’anciennes bases ? Y a-t-il
des contenus à valeur probante ?
Cycle de vie global des données (DUA)
Fréquence des mises à jour ? Y a-t-il des contraintes
juridiques qui nécessitent de conserver les données un
certain temps ?
ou
volume
total
en
Questions diverses
Voyez-vous un intérêt à l’archivage de tout ou partie de la base ?
Qu’est-ce qui motive l’archivage de cette base de données ?
7
9. Pour plus d’infos :
« Guide méthodologique pour l’archivage des bases de données », mars 2013
téléchargeable ici : http://www.cines.fr/pac/download/GM_archivage_BDD-v1.0.pdf
En savoir plus sur l’archivage électronique au CINES :
« La gazette du CINES – spécial Archivage numérique pérenne », mars 2013
téléchargeable ici :
http://www.cines.fr/pac/download/CINES_GAZETTE_Special_Archivage.pdf
10. Pour plus d’infos :
« Guide méthodologique pour l’archivage des bases de données », mars 2013
téléchargeable ici : http://www.cines.fr/pac/download/GM_archivage_BDD-v1.0.pdf
En savoir plus sur l’archivage électronique au CINES :
« La gazette du CINES – spécial Archivage numérique pérenne », mars 2013
téléchargeable ici :
http://www.cines.fr/pac/download/CINES_GAZETTE_Special_Archivage.pdf
Hinweis der Redaktion
Des applications d’entreprises aux sites web en passant par les réseaux sociaux et les applications pour les systèmes nomades, les bases de données sont partout et constituent une mémoire organisée de l’information. Ces évolutions tendent à remplacer la forme du fichier au profit de bases de données exploitables de partout et de différentes façons.
Cette interdépendance rend alors très complexe le processus d’archivage. Il faut prendre en compte la problématique classique liée à l’archivage électronique, tout en considérant la complexité des objets à archiver.
Les enjeux doivent être connus et cette question doit être traitée par une double compétence informatique et archivistique.
Quelle donnée archiver ? sous quelle forme ? celle rendue lisible par une application comme une page web ou celle qui est en est la source ?
La première option sera peut-être plus simple mais réduira l’archivage à un simple snapshot d’un état donné. L’autre sera plus complexe mais permettra dans l’avenir de retrouver le système avec une grande partie de ses fonctionnalités.
C’est à ces questions que Philippe Prat et moi-même avons essayé de répondre. (excuse pour son absence)
Le travail que je vais vous présenter est issu d’un guide méthodologique sur l’archivage des bases de données que nous venons de réaliser dans le cadre de notre activité au CINES - (le CINES, pour ceux d’entre vous qui ne le connaîtrait pas est le Centre…, expertise dans le domaine de l’archivage électronique). Travail rédigé à 4 mains afin d’allier les compétences informatique et archivistique.
L’objectif est de proposer un support aux acteurs confrontés à la problématique de l’archivage des bases de données. Il s’adresse aussi bien aux archivistes, qu’aux informaticiens ou aux décideurs et plus généralement à toute personne intéressée par cette question. Pour les non-informaticiens, il va présenter ce que sont les bases de données, les SGBD et plus largement les systèmes d’information. Pour les non-archivistes, il va préciser le contexte législatif de l’archivage, de la protection des données confidentielles, la notion de cycle de vie et les méthodes d’archivage (ce que je vous épargnerai dans ma présentation !).
Ce socle de connaissances étant posé, nous vous proposons une méthodologie pour la sélection des données et leur archivage, que nous verrons en fin de présentation.
A noter : Ce travail est une porte ouverte à une réflexion commune sur le sujet et ne demande qu’à être enrichi des retours des uns et des autres.
Une BDD est un ensemble de données organisées de façon cohérente.
Cette organisation peut être de plusieurs types. En voici quelques uns :
BDD relationnelles : la majeure partie des BDD actuelles. Organisation des données sous forme d’entités, de « tables » reliés les uns aux autres par des relations.
BDD hiérarchiques : association de données uniquement via des relations de composition de type « parent-enfants ». Ex : un livre est composé de chapitres, eux-mêmes composés de plusieurs paragraphes qui sont composés de plusieurs phrases, mots et enfin de lettres.
RDF : Formalisme très utilisé dans web sémantique, pour positionner des informations sur un objet au moyen d’un triplet : sujet, prédicat, objet. Le sujet permet d’identifier la ressource, le prédicat d’attribuer une propriété ou une relation à la ressource et l’objet de donner une valeur à cette relation. Par exemple : L’archive x (sujet) a été produite par (prédicat) l’administration y (objet). L’objet d’un triplet peut devenir le sujet d’un nouveau triplet et ainsi créer tout un réseau d’information.
Entrepôt de données : bases de données de bases de données. Permet de rassembler au sein d’un même système d’information, des données hétérogènes issues d’entités ou de métiers très différents, généralement afin de faire des recoupements de ces données. Les données concernées sont souvent peu volatiles car elles n’ont pas ou plus vocation à être modifiées. Elles ont été préalablement homogénéisées pour entrer dans un cadre normatif et être exploitable dans l’entrepôt.
Une BDD se caractérise aussi par ses niveaux de représentation :
Niveau conceptuel : c’est la traduction du monde réel : quels sont les principes que l’on a voulu représenter ? Cela va décrire des entités (càd, un ensemble d’objets ayant des attributs identiques) et des relations entre les entités (association ou actions).
Niveau logique : c’est la manière d’organiser ces entités afin qu’elles puissent être intégrables dans un système d’information. Par exemple, dans le cas d’un SGBD, les entités deviennent des tables et les relations à des associations entre tables.
Niveau physique : c’est l’écriture du modèle logique pour qu’il soit compréhensible par le SI dans lequel on va l’intégrer : en quelque sorte c’est un langage de programmation. Pour un SGBD, on parlera de SQL.
L’intérêt du modèle conceptuel des données est de voir quels sont les concepts de haut niveau auxquels la base doit répondre. La séparation entre le MLD et le MPD permet entre autres le portage d’une base de données d’un SGBD vers un autre. Par exemple, on peut traduire un MPD MySQL en un MLDR puis traduire ce MLDR en un autre MPD, postgres par exemple.
Enfin, une BDD possède des caractéristiques propres, liées à son usage :
Une base de données est dite « vivante » si les éléments qui la constituent sont modifiés ou que de nouveaux éléments sont ajoutés. On parlera de base de données « figée » si aucune modification, ajout ou effacement n’ont été effectués récemment.
Une base de données est dite « cumulative » si on ne fait qu’ajouter de nouveaux éléments sans en modifier et sans en effacer. De manière inverse, on parlera de base de données « dynamique » si l’ajout et la modification sont autorisés et utilisés.
Les bases de données sont au cœur des systèmes d’information.
Schéma 1 :
Les doubles flèches représentent les interactions possibles entre les données et l’utilisateur. Ces interactions peuvent se faire en lecture et modification, ce qui explique le double sens. Dans le cas où l’utilisateur n’interagit pas directement avec la base (au moyen du langage SQL), l’application sera un élément essentiel pour comprendre les données.
Schéma 2:
L’architecture 3-tiers est très utilisée dans les systèmes d’information.
- La couche présentation met à disposition un résultat et une interface permettant à un utilisateur final (personne(s) ou application(s)) d’effectuer des actions et de modifier ainsi les données.
- La couche application va gérer les transactions entre l’utilisateur et les données selon certaines fonctionnalités métiers (spécifications fonctionnelles).
La couche données est représentée par les données elles-mêmes et aussi par le Système de gestion de base de données. C’est ici que réside la donnée primaire/brute.
CMS web par exemple :
Utilisateur est l’internaute. Il accède à l’interface du site web (couche présentation) à l’aide d’une application particulière (un navigateur). Les opérations qu’il effectuera seront traitées par la couche métier qui ira effectuer des transactions en lecture/écriture dans la BDD.
En regardant cette organisation on peut se poser la question de ce que l’on va archiver et se rendre compte de la complexité de cette problématique.
Les bases de données sont au cœur des systèmes d’information.
Schéma 1 :
Les doubles flèches représentent les interactions possibles entre les données et l’utilisateur. Ces interactions peuvent se faire en lecture et modification, ce qui explique le double sens. Dans le cas où l’utilisateur n’interagit pas directement avec la base (au moyen du langage SQL), l’application sera un élément essentiel pour comprendre les données.
Schéma 2:
L’architecture 3-tiers est très utilisée dans les systèmes d’information.
- La couche présentation met à disposition un résultat et une interface permettant à un utilisateur final (personne(s) ou application(s)) d’effectuer des actions et de modifier ainsi les données.
- La couche application va gérer les transactions entre l’utilisateur et les données selon certaines fonctionnalités métiers (spécifications fonctionnelles).
La couche données est représentée par les données elles-mêmes et aussi par le Système de gestion de base de données. C’est ici que réside la donnée primaire/brute.
CMS web par exemple :
Utilisateur est l’internaute. Il accède à l’interface du site web (couche présentation) à l’aide d’une application particulière (un navigateur). Les opérations qu’il effectuera seront traitées par la couche métier qui ira effectuer des transactions en lecture/écriture dans la BDD.
En regardant cette organisation on peut se poser la question de ce que l’on va archiver et se rendre compte de la complexité de cette problématique.
Pourquoi archiver une base de données ?
Il est crucial de bien identifier en amont de toute action les raisons qui poussent à l’archivage. D’une part parce qu’elles auront certainement un
impact sur la manière d’archiver la base de données, et d’autre part parce que la complexité et le nombre des bases de données peuvent
représenter un frein. Dans ce cas, les motivations qui conduisent à la mise en place d’un tel projet seront autant d’arguments pour convaincre les
réticences que ce soit aussi bien vis-à-vis de la hiérarchie que du service informatique / Identifier les raisons sont autant d’arguments pour
convaincre les sponsors
Ces raisons peuvent être de plusieurs types : Données publiques / à valeur probante / fin de maintenance du SGBD / politique générale de
l’organisme
Faire un état des lieux de l’existant
Il est préférable de mener une réflexion générale, en prenant en compte l’ensemble des bases de données utilisées par une structure plutôt que
de se focaliser, souvent dans l’urgence et au cas par cas, sur une seule base de données, parce qu’elle risque de disparaître par exemple. Cela
permettra d’identifier plus facilement les redondances d’informations.
Cartographie des SI
Faire un état des lieux de l’existant
Il est préférable de mener une réflexion générale, en prenant en compte l’ensemble des bases de données utilisées par une structure plutôt que
de se focaliser, souvent dans l’urgence et au cas par cas, sur une seule base de données, parce qu’elle risque de disparaître par exemple. Cela
permettra d’identifier plus facilement les redondances d’informations.
Cartographie des SI
Moyens disponibles : financier / humain / compétences informatiques / archivistiques / matériel / partenaires possibles (mutualisation)
Identifier les rôles de chacun des acteurs : archiviste / informaticien / producteur / utilisateur
Sélectionner la ou les bases de données à archiver
Analyser l’état des lieux réalisé afin de sélectionner les bases de données nécessitant un archivage.
Pour cela, on peut identifier plusieurs critères pertinents (SGBD en fin de vie, beaucoup de données sont figées, données uniques, données à
valeur probante, intérêt historique ou scientifique, etc.)
Cela revient aussi à se poser la question du moment de l’archivage : quand décider d’archiver une base de données ?
A l’issue de cette étape, on dispose d’une liste de BDD retenues pour l’archivage mais on ne sait pas forcément par laquelle commencer…
Affecter des priorités
Il faut analyser les résultats en regard des contraintes que l’on a, en termes de délais et de complexité de la base de données, et prioritiser les
actions à entreprendre. Par exemple en attribuant un coefficient d’importance à chacun des critères identifiés.
Si temps :
Prenons l’exemple d’une base de données de gestion du personnel dont le logiciel arrive en fin de vie et pour laquelle seules les données encore actives (dossiers des personnels encore en poste) ont été migrées vers le nouveau SGBD. Elle doit être traitée en priorité au vu des délais de conservation légaux pour ce type de données (90 ans à partir de la naissance de l’employé), d’autant plus que souvent le sort de l’ancienne base de données n’est pas très bien défini (déplacement vers un serveur inutilisé, diminution de la fréquence d’utilisation jusqu’à la perte de la connaissance de son fonctionnement, ou même la suppression complète).
De la même manière, il peut être utile d’évaluer l’intérêt historique de l’archivage au regard de la complexité de la base de données, selon la logique de « la fin justifie-t-elle les moyens ? ». Au vu des structures actuelles de SGBD de plus en plus complexes, il est possible que la mise en œuvre de la conservation ne soit pas en adéquation avec les moyens dont on dispose à tel point qu’elle devienne inenvisageable malgré l’intérêt historique des données.
Evaluer la BDD
La granularité sur laquelle doit se pencher l’archivage n’est pas celle de la BDD dans sa globalité mais celle des éléments qui la composent.
Lorsque l’on a identifié la base de données que l’on va archiver, il est important d’évaluer précisément son contenu afin de sélectionner ce que l’on
va archiver (toutes les données ne sont pas forcément candidates à un archivage) et la solution la plus adaptée pour le faire.
Identifier tous les cycles de vie des données :
L’étape de l’état des lieux de l’existant a permis de dresser un aperçu du cycle de vie global des données de la base. Il convient maintenant de reprendre cette analyse plus en détail :
Toutes les données suivent-elles le même cycle de vie ? ont-elles la même DUA ?
Certaines sont-elles figées dès leur création ? ou au contraire constamment modifiées ?
La base fonctionne-t-elle de manière cumulative ou au contraire dynamique ?
Quel est le risque de non-disponibilité de l’information ?
- Evaluer la confidentialité des données :
Une base de données contient généralement des informations confidentielles, soit parce qu’elles relèvent de la vie privée (identification de personnes), soit parce qu’il s’agit d’identifiants et de mots de passe utilisés pour l’accès notamment.
Sélectionner les éléments de la base à conserver : données / traitements / application…. (dépend de l’utilisation que l’on veut en faire notamment) et préciser le moment et la fréquence de l’archivage de ces données.
Choisir la stratégie d’archivage
Se choisit en fonction de ce que l’on veut archiver et des moyens dont on dispose pour cela.
Par exemple :….. (cf. tableau des stratégies d’archivage)
Assurer la conservation numérique du contenu dans un SAE, un coffre-fort électronique ou tout autre dispositif permettant de garantir une conservation sur la durée souhaitée.