De la caractérisation des données à leur transformation
1. De la caractérisation des
données à leur transformation
Ecole Technique du pôle Technologies
14-15-16 mars à Poitiers
Diane Le Hénaff, Ingénieur Systèmes d’information Documentaires (DV-IST)
2. De la caractérisation des
données à leur transformation
1ère partie
1- Objet, information, donnée, …
2- Caractériser
3- Exemple
4- Transformer
3. 1- Objet, information, donnée
Qu’est ce qu’une donnée ?
“The term data refers to qualitative or quantitative attributes of a
variable or set of variables. Data are typically the results of
measurements and can be the basis of graphs, images, or observations
of a set of variables”
Source : http://en.wikipedia.org/wiki/Data
• Une donnée est un attribut, une propriété d’un objet
• Une donnée est une unité d’information
6. 2- Caractériser
Caractériser un objet, c’est décrire
l’objet avec des propriétés, des
attributs, des caractéristiques qui
forment alors un ensemble de
données.
Caractériser une donnée est impropre
sauf si l’on vise à décrire encore plus
finement une unité d’information.
7. 2- Caractériser un objet
Les polyamines sont des composés organiques
possédant au moins deux fonctions amine
Une amine est un composé organique dérivé de
l'ammoniac dont certains hydrogènes ont été
remplacés par un groupement carboné
Un polyamine se caractérise par :
• une suite de copolymères (-CH2-CHOH-CH2-N+(CH3)2-
) de dimethylamine et d’epichlorohydrin
• présence d’ammoniac
•…
8. 2-Caractériser une information
Une bibliothèque est un lieu (-thèque)
qui regroupe des livres (biblio-)
Ce livre se caractérise par :
• un éditeur : Gallimard
• un auteur : Lane Smith
• un titre : « C’est un livre »
• un nombre de pages
• une langue d’écriture
•…
9. 2- Prendre en compte le
contexte et l’objectif
Cet objet se caractérise par :
• un assemblage de légo
• des couleurs noir, bleu, gris
• une belle harmonie avec les couleurs de
la chambre de mon fils…
Ce livre se caractérise par :
• une très bonne critique
• son classement en livre jeunesse
• son sujet original sur les mérites du
livre imprimé
10. 2-Caractériser : pour quoi,
pour qui, comment ?
•Retrouver l’information
Pour quoi •Définir l’information
•Récupérer l’information
Pour qui •L’utilisateur humain
•La machine
•En stockant les propriétés-données (avec ou sans
Comment l’objet)
•En les publiant sous différents formats et média
11. 3- Exemple
Objectif :
je voudrais
que mon
article soit
lu par mes
pairs
14. 3- Exemple
Il est décrit ------ informatiquement
On parle du format de
données de
l’application (ici
ProdInra).
Il est issu d’une
modélisation
intellectuelle puis
informatique (en UML)
15. 3- Exemple
Application
BDD
De l’alimentation à la restitution des données
17. 4- Transformer
Tout est transformation de données
SGBD relationnel
18. 1ère partie Conclusion 1/4
Caractériser un objet, un document
doit se faire
dans un contexte (implicite)
pour un objectif (implicite)
19. 1ère partie Conclusion 2/4
Concevoir un système d'information
documentaire, c'est expliciter
• le contexte,
• l'objectif
et modéliser (décrire) les objets,
les informations, les documents.
20. 1ère partie Conclusion 3/4
La transformation des données est
partout,
mais elle est cachée à l'utilisateur
21. 1ère partie Conclusion 4/4
Chaque transformation a un coût
humain et financier.
L’avenir est dans les systèmes économes
(ie : optimisation/réduction du nbre de
transformations pour un objectif donné)
22. De la caractérisation des
données à leur transformation
2ème partie
1. Du document à l'encodage
2. Concevoir une application
documentaire
3. L'exposition des données en OAI
4. La réutilisation des données
23. 1- Du document à l’encodage
Je caractérise :
Type : Article -> Editorial
Titre : des bibliothèques aux
archives ouvertes
Auteur : Jean-Michel Rauzier
Revue : Documentaliste – SI
Corps du texte :
Voici, comme chaque année à pareille époque, un numéro
dans lequel les bibliothèques occupent une place plus
visible que d’ordinaire – parce qu’il paraît après le
congrès de l’IFLA que précéda de peu celui de l’ABF. Les
bibliothèques, moteurs de la diffusion des connaissances et
de la construction de la société de l’information : c’est
vers l’avenir que l’IFLA avait clairement tourné sa soixante-
douzième conférence, moins que jamais repliée sur la
bibliothéconomie d’antan et s’affirmant désormais
résolument comme « le congrès mondial des bibliothèques
et de l’information ». La bibliothèque demain… : loin de
s’appesantir avec narcissisme sur un siècle d’existence,
l’Association des bibliothécaires français consacrait le
congrès de son centenaire à scruter le futur des
bibliothèques et du métier dans la société de l’information.
24. 1- Du document à l’encodage
Je caractérise : J’encode :
Type : Article -> Editorial (le choix du schéma est important –
Titre : des bibliothèques aux voici ce qu’il ne faut pas faire)
archives ouvertes </type production=« Article »
Auteur : Jean-Michel Rauzier genre=« Editorial »>
<description>
Revue : Documentaliste – SI
<titre langue=« FRA » role="original">
Corps du texte :
Voici, comme chaque année à pareille époque, un Des bibliothèques aux archives ouvertes
numéro dans lequel les bibliothèques occupent une
place plus visible que d’ordinaire – parce qu’il paraît </titre>
après le
congrès de l’IFLA que précéda de peu celui de l’ABF.
Les bibliothèques, moteurs de la diffusion des
<auteur>
connaissances et de la construction de la société de
l’information : c’est <prenom>Jean-Michel</prenom>
vers l’avenir que l’IFLA avait clairement tourné sa
soixante-douzième conférence, moins que jamais
repliée sur la bibliothéconomie d’antan et
<nom>Rauzier</nom>
s’affirmant désormais résolument comme « le
congrès mondial des bibliothèques et de </auteur>
l’information ». La bibliothèque demain…
…
25. 2- Concevoir une application
documentaire
Quel type de • Relationnelle
• Native XML
BDD ? • Objet, graphe, no-sql…
Quelle •MCD
modélisation ? •UML
•Spécifique
Quel format ? •Standard (MODS…)
27. 3- L’exposition des données en OAI
Métadonnées au format
de l’archive ouverte Transformation Record
(Métadata)
Format demenadé
I
n
Méta données
t
Set n°1 e
Record
(Métadata)
r format OA
Fichiers
texte intégral
p
r
Set n°2 é
t
Set e Requête OAI (http)
n°3 u
Archive ouverte r • Le verbe (ici GetRecord)
Entrepôt OAI
• Le set de données (optionnel)
• Le format de données (obligatoire)
28. 4- La réutilisation des données
Exemple avec les projets IraLis, Exit, E-LIS portés
par CIEPI, the International Centre of Research for
Information Strategy and Development
Je m’enregistre
dans IraLis
29. 4- La réutilisation des données
Ma signature telle qu’encodée en RDF dans IraLIS
<rdf:RDF>
<foaf:Person rdf:about="FRLIS2192">
<foaf:familyName>Le Hénaff</foaf:familyName>
<foaf:firstName>Diane</foaf:firstName>
<foaf:mbox rdf:resource="mailto:diane.lehenaff@gmail.com"/>
<iralis:anep_classification>LIS</iralis:anep_classification>
<iralis:jcr_classification>INFORMATION SCIENCE </iralis:jcr_classification>
<skos:Collection/>
<skos:prefLabel>Diane Le-Hénaff</skos:prefLabel>
<foaf:mbox rdf:resource="mailto:"/>
</foaf:Person>
</rdf:RDF>
30. 4- La réutilisation des données
Je m’enregistre
dans EXIT en
signalant mon
IraLIS
Mes publications
déposées dans ELIS
sont mentionnées
31. 2ème partie Conclusion 1/2
On ne caractérise pas des données
mais un objet, un document, une
information…
32. 2ème partie Conclusion 2/2
On ne transforme pas des données
mais l’encodage de l’objet (format
de données)
33. Conclusion générale
Le titre de cette présentation est
incorrect (CQFD)
Vous devriez maintenant savoir
pourquoi !