JABES 2015 - ABES : les dessous de la FRBRisation du Sudoc / Olivier Rousseaux (ABES)
1. Les dessous de la frbrisation du Sudoc
Olivier Rousseaux - ABES
1Journées ABES 2015
2. Les dessous de la frbrisation du Sudoc
• Frbrisation du Sudoc : de quoi parle-t-on ?
• Contexte
– Démarche initiale
– Vers une voie nouvelle
– Modalités (très) schématiques de mise en œuvre
• Calendrier
• A quelles fins ?
• Premières conclusions
2O. Rousseaux - ABESJournées ABES 2015
3. Frbrisation du Sudoc : de quoi parle-t-on ?
Un néologisme à géométrie variable
Assumer que si il y a nécessité de "frbriser" c'est
que la base de données n'est pas totalement
compatible avec le modèle cible
Le faire sans dramatiser...
3O. Rousseaux - ABESJournées ABES 2015
4. Frbrisation du Sudoc : de quoi parle-t on?
Il s'agit de mettre modestement un peu de "relief" FRBR
dans les notices du catalogue
Regrouper les Manifestations contenant une
même Œuvre
Dégager des éléments qui caractérisent l'Œuvre (+
Expressions ?) contenue
Créer une notice d’Œuvre
Lier Manifestations et Œuvre
4O. Rousseaux - ABESJournées ABES 2015
5. Contexte
Novembre 2012 – Rapport d’orientation pour le
Comité stratégique bibliographique
– L’ABES s’engage sur la voie d'un rapprochement de la
production courante de données bibliographiques
dans le Sudoc avec le modèle FRBR
• « jeu de consignes de catalogage précises, avec pour objectif
l’identification systématique des œuvres [...] »
• « [adaptations limitées] du paramétrage de la base CBS »
• « [...] étude des procédures de traitement automatique
rétrospectif [...] »
5O. Rousseaux - ABESJournées ABES 2015
6. - rappels et ajustements de règles de catalogage en 2013
• titre original pour une traduction ;
• code fonction des différents contributeurs ;
• identifiants ;
• dates ;
• abandon des notes textuelles de contenu au profit de point d'accès titre ;
• etc.
- spécifications CBS de mécanismes d'appariement entre
zones d'accès titre et d'accès auteur (non aboutis)
6O. Rousseaux - ABESJournées ABES 2015
Démarche initiale
sans développements informatiques majeurs
7. – Bilan fin 2013 : Démarche jugée insuffisante pour
envisager un effet bénéfique significatif à l'échelle du
Sudoc sans un support technique conséquent
– Dissociation des projets SGBM et Sudoc 2 = augmentation
de la durée de vie du Sudoc dans le CBS
Décision au printemps 2014 de mener une
expérimentation à partir des algorithmes de
regroupements développés par OCLC pour le
CBS
Vers une voie nouvelle
7O. Rousseaux - ABESJournées ABES 2015
8. Des limites techniques imposées
– Un seul niveau FRBR généré en lien aux Manifestations (notices
bibliographiques) = Nouveau type de notice d’autorité avec
contenu à la fois de niveau Œuvre et Expression (baptisée
« notice de Regroupement » par l’ABES)
– Pas de notices de Regroupement pour les notices
bibliographiques isolées
– Au maximum 1 lien à une notice de Regroupement par
Manifestation
– Paramètres initiaux = ceux établis pour le projet néerlandais
(spécifications détaillées inconnues de l'ABES)
Des spécifications complémentaires pour adaptations au
contexte Sudoc
Vers une voie nouvelle
8O. Rousseaux - ABESJournées ABES 2015
9. Notices bibliographiques
Algorithmes de regroupement
1/3 – Calculs et regroupements
9O. Rousseaux - ABESJournées ABES 2015
Modalités (très) schématiques de mise en œuvre
11. Notices d’autorité de Regroupement
générées par programmes
2/3 – Notice bibliographique préférée support de la notice de Regroupement
Notices bibliographiques
1 notice « préférée » calculée par regroupement
Pas de notice de Regroupement pour les notices isolées
11O. Rousseaux - ABESJournées ABES 2015
12. Notices bibliographiques
Notices d’autorité de regroupement
générées par programmes
3/3 – Liage entre notices bibliographiques et notice de Regroupement
12O. Rousseaux - ABESJournées ABES 2015
13. Calendrier
Novembre 2014 - juin 2015
• Novembre 2014
Création d'un environnement CBS de test reprenant
l’intégralité de la base de production
• Novembre 2014 - 15 février 2015
Spécifications (ABES)
• 15 février 2015 - 25 Mars 2015
Paramétrage du CBS de test selon les spécifications ABES
(OCLC)
Etablissement de jeux de notices tests (ABES)
13O. Rousseaux - ABESJournées ABES 2015
15. • 26 mars 2015 - 30 juin 2015
Vérification des notices de test + rapports de tests (ABES)
Ajustement / amélioration des algorithmes (OCLC)
Au 27 mai 2015 nous en sommes là
Jusqu'à 5 ajustements de paramétrages pour optimiser les
résultats ... et conclure
15O. Rousseaux - ABESJournées ABES 2015
16. Premiers constats (partiels)
• Le fonctionnement des algorithmes de
regroupement est relativement opaque
– Des développements ou paramétrages demandés restent à
faire (ou sont impossibles ?)
– Marge de manœuvre incertaine sur des améliorations
envisagées après les premiers tests
Discussions en cours avec OCLC
- Optimisation des temps de traitement | Perte de qualité
- Réduire les cas de notices indûment présentes dans un
regroupement (= bruit) sans augmenter les cas de notices non
regroupées / ou les regroupements doublons
(= silence)
16O. Rousseaux - ABESJournées ABES 2015
19. 008 $aTr2
00A $00
00U utf8
00V $02015-03-26 23:24:11.696
103 ##$a2000
104 ##$ak
106 ##$a0$b#$c#
231 ##$a@Etude de l'extension urbaine autour d'Avignon et de Montpellier de 1936 à 1999 par la simulation de dynamiques spatiales à l'aide
de modèles cellulaires d'interaction locale
300 ##$aLes phénomènes d'extension urbaine des régions d'Avignon et de Montpellier entre 1936 et 1999 constituent l'objet de cette thèse.
Ces régions ont été choisies en raison de l'ampleur de l'extension urbaine qui les caractérise [...]. Les simulations n'ont pas eu pour but de
reproduire le réel, mais d'aider à identifier des mécanismes spatiaux fondamentaux. En cela cette thèse s'inscrit dans une géographie
expérimentale
328 #0$bThèse de doctorat$cGéographie$eAvignon$d2000
500 #1$3068881118{{Ellerkamp, Philippe (1967-...)}}
606 ##$3027255034{{Urbanisation}}$3027226794{{France}}$3034681159{{Avignon (Vaucluse ; agglomération)}}$3086305646{{20e
siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau
606 ##$3027255034{{Urbanisation}}$3027226794{{France}}$3027252051{{Montpellier (Hérault)}}$3086305646{{20e
siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau
606 ##$3031194095{{Périurbanisation}}$3027226794{{France}}$3034681159{{Avignon (Vaucluse ; agglomération)}}$3086305646{{20e
siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau
606 ##$3031194095{{Périurbanisation}}$3027226794{{France}}$3027252051{{Montpellier (Hérault)}}$3086305646{{20e
siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau
606 ##$3027255247{{Croissance urbaine}}$3027551385{{Modèles mathématiques}}$3027253139{{Thèses et écrits académiques}}$2rameau
686 ##$a910$2TEF
Notice de Regroupement (cas optimal)
Titre
Auteur (créateur)
Résumé
Accès matière
Note de thèse
Données codées
20. A quelles fins ?
• Pour le catalogueur
– Tendre vers un allègement de la saisie en tirant
bénéfice du lien à l’autorité Œuvre (accès
auteur/accès matière/résumé/...)
• Pour l’usager final
– Mise en avant des regroupements de notices avec
restrictions par facettes (par langues notamment)
– Donner par contraste plus de visibilité aux Œuvres
peu éditées
20O. Rousseaux - ABESJournées ABES 2015
22. Requête sur le titre français
22O. Rousseaux - ABESJournées ABES 2015
23. Sans regroupements, la même requête ne ramène que les 3 romans traduits en français
23O. Rousseaux - ABESJournées ABES 2015
24. Quelques limites
• Les ressources continues
– Intérêt des regroupements peu probant
• Les œuvres anonymes (ou sans points d’accès
auteurs)
– Risques de regroupements confus (sur titres
homonymes)
• Les données hétérogènes
– Les algorithmes ne peuvent guère pallier aux
manques, aux approximations, aux incohérences...
24O. Rousseaux - ABESJournées ABES 2015
25. « - Et les agrégats... ? »
Plus d’une Œuvre contenue au sein d’une
même Manifestation : œuvres littéraires
complètes ou choisies, CD musicaux, etc.
Wind concertos / Mozart, comp. ; Berliner
Philharmoniker, orch. ; Herbert von Karajan, dir.
Contient :
- Flute concerto n °1 in G major K 313
- Concerto for flute and harp in C major K 299
- Oboe concerto in C major K 314
- Clarinet concerto in A major K 622
- Bassoon concerto in B flat major K 191
- Sinfonia concertante K 297b
« - Ben... »
Flute and harp concerto K. 299 ; Sinfonia concertante
K. 297B / Wolfgang Amadeus Mozart, comp. ; Kenneth
Smith, fl. ; Bryn Lewis, hrp ; John Anderson, htb... [et
al.] ; Philharmonia Orchestra ; Giuseppe Sinopoli, dir.
Contient :
- Concerto for flute and harp in C major K 299
- Sinfonia concertante K 297b
Au mieux...
Regroupement effectué de manière pertinente sur une œuvre (mais sur une seule)
Notice de regroupement par exemple pour Concerto for flute and harp in C major K
299
et Sinfonia concertante K 297b non pris en compte
Au pire (?)
La notice de Regroupement amalgame tous les titres communs à toutes les notices de
la grappe
Notice de regroupement pour Concerto for flute and harp in C major K 299
avec comme « variante de titre » : Sinfonia concertante K 297b
26. Déjà conclure ?
• Sur l'expérimentation en cours
– Un grand... « peut-être »
• l’Après?
– Des incertitudes sur l’articulation technique entre traitements
automatiques et traitement manuel
– Une maintenance supplémentaire sur le CBS
• Mais encore?
– Nouvelle version de CBS impérative (début 2016)
– Cohabitation / convergence à mener entre les autorités Titres (Titre
uniformes / Auteur-Titre) et les notices de Regroupement
– Règles de catalogage à établir pour passer des notices de
Regroupement à des notices d‘Œuvre (quid des expressions?)
– Rapprochements envisagés avec la BnF : vers une base commune de
notices d'Œuvres?
– ...
26O. Rousseaux - ABESJournées ABES 2015
27. Rendez-vous l’année prochaine, même heure, même
endroit ?
Merci.
La suite reste donc encore grandement à
écrire...
27O. Rousseaux - ABESJournées ABES 2015
Hinweis der Redaktion
qui n'auraient pas le temps d'être rentabilisés. Durée de vie limitée du CBS (échéances à court terme du projet SGBM)
traitement des données jugées « clés » pour se rapprocher du modèle FRBR – Publication GM
En réponse à une demande du réseau des bibliothèques publiques néerlandaises
Quid des agrégats?
- Création de clusters (selon paramètres= regroupements de notices décrivant une même œuvre. S'appuie notamment sur les indentifiants d'œuvre OCLC + comparaison de clés numériques auteur titre calculées pour chaque notice bibliographique
- Choix d'une notice préférée dans le cluster pour servir de base à une nouvelle notice, d'autorité d'un nouveau type (hybride Œuvre/ Expression = notice dite de regroupement)
- Alimentation de la notice de regroupement
- Lien bibliographique depuis chacune des notices bibliographiques du cluster vers la notice de regroupement
- Une création initiale de toutes les notices de regroupement + liens biblio (durée :environ 18 heures)+ mise à jour quotidienne (recalcule prenant en compte tous les mouvement s de la base nouveaux clusters / clusters supprimés / clusters modifiés (durée : 2-3 heures)
- Beaucoup d'incompréhension à ce stade : * les algorithmes fonctionnent comme des "boites noires" pour l'ABES il est difficile de mesurer à quel point les spécifications sont respectées / judicieuses / améliorables * Fonctionnement incertain concernant la sélection d'une (seule?) notice préférée dans chaque grappe pour alimenter la notice de regroupement
Marge de manœuvre incertaine concernant les paramètres de regroupement des notices (limitation des regroupements à certains types de notices)
Alimentation de la notice de regroupement parcellaire (ex : pas de zones de variantes de titre) ou non conforme (par ex. : données de date, de langues incohérentes)
Pas encore de prise en compte des spécifications établies pour paramétrer les regroupements possibles ou non
Catalogueurs Premiers pas : Pas de recherche de bénéfice en terme d'économie de saisie (auteur/sujets/résumé) mais facilitation intellectuelle (dans cette première approche) de récupération de cette donnée dans toute description de manifestation qui sera(it) à rattacher à une notice d'œuvre existante[à la recherche d'une évolution allégeant la quantité de travail tout en augmentant la qualité des données : homogéniser ce qui est commun (principe des liens aux autorités)]
C’est ce qui se fait en partie avec des scripts de création (par ex. monogr. Imprimée monogr électronique) mais on viose à ne plus dupliquer les informations communes (et les rendre modifiable s à un seul endroit : la notice d’Oeuvre)
Lecteurs Regrouper des manifestations relevant d'une même œuvre puis tris possibles par langues notamment (sans développements informatiques lourds sur le catalogue public Sudoc actuel) : donner notamment plus de visibilité à ce qui est peu édité en évitant de le noyer dans ce qui l'est très abondamment
- Requête sur le titre français que seules 3 des 10 notices du regroupement connaissent
- Facettes par langues
validation de clusters / enrichissement du contenu des notices de regroupements / enrichissement des notices bibliographiques en liens vers +sieurs notices de regroupement / comportement des algorithmes dans leur ajustements quotidiens / capacité de l'ABES à assurer la maintenance des algorithmes (paramétrages divers)