Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
1. 1
Les collections numérisées de journaux de la BnF
Limites et reussites
Journée d’information Europeana Newspapers
BnF
27 novembre 2014
2. Contexte de départ
- Une des plus importantes
hémérothèques d’Europe, la plus
importante en langue française.
- Un accès aux titres par Gallica,
avec un début de rubriquage par
grande thématique.
- Un accès aux contenus au numéro
ou à la page.
- Un grand nombre de titres en mode
image.
- Un OCR de qualité inégale
- Une navigation limitée dans les
contenus textuels
- Des difficultés d’interrogation sur
les noms propres
- Une instabilité des résultats de
recherche
2
3. Choix documentaire
- Des documents rentrés dans le
domaine publics (soit publiés
soixante dix auparavant, et plus)
- Des titres morts ou vivants, publiés
du XIXème au XXème siècle
- Des quotidiens d’information
générale et politique nationaux,
avec leurs suppléments
hebdomadaires (avec exception
pour Ouest Eclair).
- Un panel représentant l’ensemble
des sensibilités politiques et
culturelles du pays au moment de
l’édition.
- Des journaux offrant une riche
rubrique « relations
internationales », avec focus sur
l’Europe en particulier
- Des titres typiques de production
éditoriale française de l’apoque
3
4. Du côté des publics
- Attente d’une mode texte enrichi.
- Meilleur identification des images
et de leurs légendes
- Fiabilité des résultats des
recherches plein texte
- Possibilité de réduire « le bruit »
- Recherche par article, et titre
d’article
- Accès direct à l’article
- Lecture du journal reprenant le
rubriquage d’origine
- Navigation facilitée à l’intérieur
des contenus textuels
4
5. Objectifs de recherche
- Enrichissement de l’OCR
- Segmentation des articles et
reconnaissance des blocs textes
- Identification des structures
éditoriales : rubriques, titres, sous-
titres, intertitres …
- Repérage et extraction des noms
propres et des noms de lieux
- Établissement de modèles
communs de presse pour
l’ensemble des partenaires
- Etablissement de critères communs
de reconnaissances éditoriales.
- Publication de standards descriptifs
pour l’édition de presse
contemporaine.
5
6. Et maintenant ?
- Une visibilité augmentée depuis
TEL ?
- Intégration et utilisation des
résultats ?
- Quelles poursuites ?
- Comment traiter les entités
nommées ?
6