SlideShare ist ein Scribd-Unternehmen logo
1 von 58
EAC-CPF et les Réseaux Sociaux Présentation au congrès de la SAA Chicago, aôut 2011  Daniel Pitti (Institute for Advanced Technology in the Humanities, University of Virginia) Ray Larson - (School of Information, University of California, Berkeley) Adrian Turner et Brian Tingle  -(CAD - California Digital Library, University of California) Version abrégée de la version d’origine, avec traduction en français des explications textuelles. Présentée aux groupes d’experts AFNOR sur l’EAD et l’EAC, par Anila Angjeli La version complète, présentée au congrès de la SAA est accessible à l’adresse: http://www.slideshare.net/tinglebrian/saa-2011-snac
Financement et durée Subventionné par : National Endowment for the Humanities Axe: préservation et accès, recherche et développement  Durée : deux ans (mai 2010-avril 2012) Equipe du projet Daniel Pitti(chef de projet) et Worthy Martin  (IATH - Institute for Advanced Technology in the Humanities, University of Virginia) Ray Larson  (School of Information, University of California, Berkeley) Adrian Turner et Brian Tingle  (CAD - California Digital Library, University of California)
Objectifs Situation actuelle: Les instruments de recherche confondent souvent la description des documents d’archives et celle des producteurs de ces documents  Le projet vise à: Utiliser les technologies avancées dans un processus continu de transformation de la description archivistique  En facilitant la séparation de la description des “personnes” (au sens large du terme) de la description des documents d’archives En utilisant EAC-CPF: standard international de contrôle d’autorité But: donner un élan à l’économie et à l’efficacité de la description archivistique pour une meilleure accès et compréhension de la part des utilisateurs des archives, des bibliothèques et des musées
SNAC et les documents d’archives: principes Les documents d’archives : émanent de personnes, qui vivent et agissent individuellement, en groupes organisés, en familles  donnent de l’information sur la vie et l’œuvre des personnes Les personnes: Evoluent dans des contextes socio-professionnels et en relations avec d’autres personnes Les documents d’archives nous informent sur ces relations Les documents d’archives produits par une même entité  sont réunis en fonds ou collections et c’est l’ensemble qui est décrit On y trouve de l’information détaillée sur les producteurs Mais aussi on y fait référence à plusieurs autres “personnes” Les descriptions archivistiques documentent les relations complexes entre les personnes et les documents d’archives
Les donnéesexploitées Instruments de recherche en EAD Library of Congress (1 159) Online Archive of California (~15 400 ) Northwest Digital Archive (5 160) Virginia Heritage (8 390) Notices d’autorité Library of Congress: NACO/LCNAF (3,8M noms de personnes; 900K noms de collectivités) Getty Vocabulary Program: Union List of Artist Names (293K noms de personnes et de collectivités) Virtual International Authority File (5M+ noms de personnes)
Méthodes et traitements Extraction (génération) de notices EAC-CPF à partir des descriptions existantes en EAD Extraction des noms de producteurs et de tous les autres noms CPF référencés dans les instances EAD “Matcher” les notices EAC-CPF les unes avec les autres et avec les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité Enrichir et améliorer les notices EAC-CPF en normalisant les points d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN) Créer un prototype pour un système d’accès  Aux données historiques et relatifs aux réseaux socio-professionnels Liens avec les ressources des archives, des bibliothèques, et des musées
Situation des données source en EAD EncodedArchival Description Description de producteurs de documents d’archives confondus avec des noms associés aux contenus des documents d’archives  Description détaillée des producteurs de documents d’archives Qualité très variable Dans le nombre des noms identifiés et encodés Dans la forme des noms (directe, inversée, utilisation des majuscules, ponctuation, etc.) Dans la catégorisation des noms (personnes, collectivités, familles) De nombreux noms apparaissent mais ne sont pas identifiés en tant que tels Dans la majorité se trouvent dans la description des biographies/histoires et dans la description des correspondances L’extraction a initialement visé les « fruits murs » (« lowhanging fruit »), c.a.d. les noms balisés en tant que tels Les autres noms qui ne sont pas identifiés en tant que tels seront progressivement traités
Source: J. Robert Oppenheimer Papers (LoC) <origination>  	<persname source="lcnaf">Oppenheimer, J. Robert, 1904-1967</persname>  </origination> <controlaccess>	<persname source="lcnaf" encodinganalog="100" role="creator">Oppenheimer, J.  	 Robert, 1904-1967</persname>	<persname source="lcnaf" encodinganalog="600" role="subject">Bethe, Hans 	 Albrecht, 1906- --Correspondence</persname> <!-- […] -->	<persname source="lcnaf" encodinganalog="600" role="subject">Born, Max, 	 1882-1970 --Correspondence</persname>	<persname source="lcnaf" encodinganalog="600" role="subject">Boyd, Julian P. 	 (Julian Parks), 1903- --Correspondence</persname>	<persname source="lcnaf" encodinganalog="600" role="subject">Bush, Vannevar, 	 1890-1974 --Correspondence</persname>	<persname source="lcnaf" encodinganalog="600" role="subject">Casals, Pablo, 	 1876-1973 --Correspondence</persname> <!-- […] -->	<corpname source="lcnaf" encodinganalog="610" role="subject">Institute for 	 Advanced Study (Princeton, N.J.)</corpname>	<corpname source="lcnaf" encodinganalog="610" role="subject">Los Alamos 	 Scientific Laboratory</corpname> <!-- […] --></controlaccess>
Source: Leonard Bernstein Collection (LoC)   <c02>    <did>       <container type="box">1</container>        <unittitle>Aaltonen, Erkki<unitdate era="ce" calendar="gregorian">1981</unitdate>       </unittitle>       <physdesc>          <extent>1</extent>        </physdesc>    </did> </c02> <c02>    <did>       <unittitle>Abbado, Claudio <unitdate era="ce" calendar="gregorian">1963-90</unitdate>        </unittitle>       <physdesc>          <extent>5</extent>        </physdesc>    </did> </c02> […]
<bioghist>     <head>Biographical Sketch</head>     <p>José Marcos Mugarrieta, prior to his term as Mexican consul in San Francisco 1857-1863, served in the Mexican army from 1837. He saw action in numerous battles and campaigns – Jamaica, under General Canalizoin 1841; Campeche, 1842-1843; Merida, 1843; Veracruz, 1845; Mexico City, 1846; Angostura and Cerro-gordo, 1847; Guanajuato, 1848, and Sierra-Gorda under Bustamante, 1848-1849; and Matamoros, 1849-1850. […] </p>     <p>In April 1857 Mugarrieta received an appointment from the Comonfort government for the consulship in San Francisco. He did not actually begin his new duties until September 1, 1859, due to illness and to the political situation in Mexico. […]</p>  </bioghist>
<bioghist>    <head>Chronology</head>    <chronlist>      <chronitem>        <date>1900</date>        <event>Born on Jan. 20 in Hastings, Minnesota.</event>      </chronitem>      <chronitem>        <date>1922</date>        <event>Received baccalaureate from Princeton University, major in philosophy. 	</event>      </chronitem>      […]       <chronitem>        <date>1965</date>        <event>Died on April 4.</event>      </chronitem>    </chronlist>  </bioghist>
Standard utilisé: EAC-CPF <identity> 	<entityType>person</entityType> 	<nameEntryscriptCode="Latn" xml:lang="eng"> 		<part>Oppenheimer, J. Robert, 1904-1967.</part> 		<authorizedForm>AACR2</authorizedForm> 	</nameEntry> 	<nameEntrylocalType="VIAF:MainHeading"> 		<part>Oppenheimer, J. Robert (Julius Robert), 1904-1967</part> 		<alternativeForm>VIAF</alternativeForm> 	</nameEntry> 	<nameEntrylocalType="VIAF:MainHeading"> 		<part>Oppenheimer, Julius Robert, 1904-1967</part> 		<alternativeForm>VIAF</alternativeForm> 	</nameEntry> 		<nameEntrylocalType="VIAF:x400"> 		<part>Oppenheimer, Robert</part> 		<alternativeForm>VIAF</alternativeForm> 	</nameEntry> 	<nameEntrylocalType="VIAF:x400"> 		<part>Ou-pẽn-hai-mo, 1904-1967</part> 		<alternativeForm>VIAF</alternativeForm> 	</nameEntry> </identity>
<existDates> 	<dateRange> 		<fromDatestandardDate=“1904-04-22”>1904, Apr. 22</fromDate> 		<toDatestandardDate=“1967-02-18”>1967, Feb. 18</toDate> 	</dateRange> </existDates> <!-- ... --> <localDescriptionlocalType="subject"> 	<term>Science--Societies, etc.</term> </localDescription> <localDescriptionlocalType="VIAF:nationality"> 	<placeEntrycountryCode="US"/> </localDescription> <localDescriptionlocalType="VIAF:gender"> 	<term>Male</term> </localDescription> <languageUsed> 	<language languageCode="eng"/> </languageUsed> <occupation> 	<term>Physicists.</term> </occupation> <!-- ... -->
<chronList> 	<chronItem> 		<date>1904, Apr. 22</date> 		<placeEntry>New York, N.Y.</placeEntry> 		<event>Born, New York, N.Y.</event> 	</chronItem> <!-- ... --> 	<chronItem> 		<date>1943-1945</date> 		<placeEntry>Los Alamos, N. Mex.</placeEntry> 		<event>Director, Los Alamos Scientific Laboratory, Los Alamos, N. Mex.</event> 	</chronItem> <!-- ... --> 	<chronItem> 		<date>1954</date> 		<event>(1) Denied security clearance […] (2) Published Science and the 			Common Understanding […] 		 </event> 	</chronItem> <!-- ... --> 	<chronItem> 		<date>1967, Feb. 18</date> 		<placeEntry>Princeton, N.J.</placeEntry> 		<event>Died, Princeton, N.J.</event> 	</chronItem> </chronList>
<cpfRelationxmlns:xlink="http://www.w3.org/1999/xlink"  xlink:type="simple" xlink:role="http://RDVocab.info/uri/schema/FRBRentitiesRDA/Person"  xlink:arcrole="correspondedWith"> 	<relationEntry>Bush, Vannevar, 1890-1974.</relationEntry> 	<descriptiveNote> 		<p>recordId: DLC.ms998007.r007</p> 	</descriptiveNote> </cpfRelation>
<resourceRelationxmlns:xlink="http://www.w3.org/1999/xlink" xlink:arcrole="creatorOf"xlink:role="archivalRecords” xlink:type="simple”  xlink:href="http://hdl.loc.gov/loc.mss/eadmss.ms998007">	<relationEntry>J. Robert Oppenheimer Papers, 1799-1980 (bulk 1947-1967)</relationEntry>	<objectXMLWrap>	<did xmlns="urn:isbn:1-931666-22-9” > 		<unittitle>Papers <unitdate  normal="1799/1980” era="ce” calendar="gregorian">1799-1980 		 </unitdate><unitdate label="Bulk Dates" type="bulk" normal="1947/1967”		era="ce” calendar="gregorian">(bulk 1947-1967)</unitdate></unittitle>		<unitidcountrycode="US" repositorycode="US-DLC">MSS35188</unitid>		<origination label="Creator">			<persname>Oppenheimer, J. Robert, 1904-1967</persname>		</origination> <!-- ... -->		<repository><corpname>Manuscript Division. Library of Congress</corpname> 		</repository>		<abstract>Physicist and director		of the Institute for Advanced Study, Princeton, New Jersey. [...] Topics include theoretical 		physics, development of the atomic bomb, the relationship between government and 			science, nuclear energy, security, and national loyalty. </abstract>	</did>	</objectXMLWrap></resourceRelation>
Premières observations - Extraction La profondeur de l’analyse et la qualité de description des entités CPF varie largement d’un instrument de recherche en EAD à l’autre Dans LoC, de nombreux noms obéissent au contrôle d’autorité Dans OAC et NWDA on trouve moins de noms et le niveau de contrôle est variable
Etape suivante dans l’extraction Affiner les procédures de l’extraction, en appliquant des outils de Traitement Automatisé de la Langue (TAL), ex: Vérifier le type du nom : C, P ou F Reformater les noms (normaliser les formes) Identifier les chaînes de caractères qui sont potentiellement des noms mais ne sont pas identifiés en tant que tels Utiliser l’information contextuelle pour de meilleurs résultats dans les “matching”, ex.: date/dates de correspondance, ou l’occupation du producteur des documents
Au delà du projet Créer une infrastructure pour un système national d’autorité pour les archives  IMLS vient d’annoncer la subvention d’un projet pour deux ans, octobre 2011- septembre 2013 Ateliers SAA sur l’EAC-CPF : 140 bourses d’étude Planification d’un programme coopératif national portant sur les autorités dans les archives  « National ArchivalAuthoritiesCooperative » SNAC II: proposition pour étendre SNAC Beaucoup plus de données NARA, Smithsonian Institution, notices MARC WorldCat, encore plus d’instruments de recherche Appel à contribution avec des données (instruments de recherche EAD et notices EAC-CPF) à la communauté internationale
SNAC« matching » et fusion Ray Larson Université de Californie, Berkeley School of Information
Objectif de l’équipe de Berkeley Combiner les ressources de données provenant de multiples archives et d’autres sources d’information
Méthodes et traitements Extraction (génération) de notices EAC-CPF à partir des descriptions existantes en EAD Extraction des noms de producteurs et de tous les autres noms CPF référencés dans les instances EAD “Matcher” les notices EAC-CPF les unes avec les autres et avec les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité Enrichir et améliorer les notices EAC-CPF en normalisant les points d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN) Défis à relever:  Plusieurs personnes portant le même nom Plusieurs noms  pour une même personne
Connecter « matcher » les correspondances exactes Les notices EAC-CPF fournissent les noms sans avoir besoin de « parser » les textes, etc. Permettent d’utiliser des méthodes simples comme les correspondances exactes: Postulat de départ:  les accès identiques désignent les mêmes personnes / collectivités / familles les noms complets et les ID des notices sont entrés dans une base de donnée et les ID contenant les mêmes noms sont marquées pour être fusionnés
Recherche dans les fichiers d’autorité Pour chaque nom une recherche dans VIAF est formulée en utilisant le système Cheshire (système de recherche SGML/XML avec des fonctionnalités de mise en correspondance probabilistique et booléenne) Recherche des formes d’autorité et des variantes Toute correspondance de nom est considérée comme une variante – candidate pour une mise en correspondance avec la forme d’autorité Les notices d’autorité EAC-CPF qui correspondent avec la même notice d’autorité, sont marquées comme des candidates pour une mise en correspondance
Fusion des notices marquées Pour tous les « matching » exacts et les autorités correspondantes Utiliser les formes d’autorité du nom Combiner les données de chaque « matching » dans une seule notice EAC-CPF Conserver toutes les ID des notices sources et les autres informations recueillies Enfin produire (sortir/générer) des notices EAC-CPF fusionnées
Mais Les « matching » exacts supposent que les archives suivent les pratiques de catalogage de la LoC  dans leurs instruments de recherche Cette supposition pose quelques problèmes
Traiter les échecs Où ça ne marche pas et pourquoi ? Un échantillon de la base de données est en cours de constitution pour identifier les problèmes Plusieurs problèmes constatés semblent pouvoir être résolus en utilisant: des éléments contextuels dans les documents EAD des « matching » plus sophistiqués pour les variantes phonétiques tels que les n-grams et les schémas phonétiques tel que phonex une normalisation additionnelle des noms avant fusion pour l’ordre des noms, etc. utilisation de méthodes avancées de « matching »
Tester de nouvelles méthodes de fusion Travail effectué en conjonction avec SNAC dans le cadre d’un projet de master appelé Biograph Utilisation de SNAC et fusion avec FreeBase et IMDB
Conclusion In n’y aura pas une seule méthode de fusion mais  un ensemble d’approches par couches permettant d’aller des « matching » exacts, les plus simples, aux identifications fiables (on l’espère) de variantes de noms, lorsque l’information contextuelle le confirme (dates, etc.) Après fusion, c’est la phase recherche et l’affichage
Découvrir les réseaux sociaux et historiques Demo du prototype Brian Tingle California Digital Library
Demo Les onglets La recherche avancée
Fonctionnalités Proposition de correction d’orthographe (suggestion de requête) Liste des variantes du nom (à la recherche, à l’affichage d’une notice) Recherche / tri par facettes (occupation, etc.) Biographie ou histoire Les entités liées
Pour plus d’information: http://socialarchive.iath.virginia.edu/ (site web du projet) http://socialarchive.iath.virginia.edu/xtf/search (prototype public)

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Saa 2011-snac anila

  • 1. EAC-CPF et les Réseaux Sociaux Présentation au congrès de la SAA Chicago, aôut 2011 Daniel Pitti (Institute for Advanced Technology in the Humanities, University of Virginia) Ray Larson - (School of Information, University of California, Berkeley) Adrian Turner et Brian Tingle -(CAD - California Digital Library, University of California) Version abrégée de la version d’origine, avec traduction en français des explications textuelles. Présentée aux groupes d’experts AFNOR sur l’EAD et l’EAC, par Anila Angjeli La version complète, présentée au congrès de la SAA est accessible à l’adresse: http://www.slideshare.net/tinglebrian/saa-2011-snac
  • 2. Financement et durée Subventionné par : National Endowment for the Humanities Axe: préservation et accès, recherche et développement Durée : deux ans (mai 2010-avril 2012) Equipe du projet Daniel Pitti(chef de projet) et Worthy Martin (IATH - Institute for Advanced Technology in the Humanities, University of Virginia) Ray Larson (School of Information, University of California, Berkeley) Adrian Turner et Brian Tingle (CAD - California Digital Library, University of California)
  • 3. Objectifs Situation actuelle: Les instruments de recherche confondent souvent la description des documents d’archives et celle des producteurs de ces documents Le projet vise à: Utiliser les technologies avancées dans un processus continu de transformation de la description archivistique En facilitant la séparation de la description des “personnes” (au sens large du terme) de la description des documents d’archives En utilisant EAC-CPF: standard international de contrôle d’autorité But: donner un élan à l’économie et à l’efficacité de la description archivistique pour une meilleure accès et compréhension de la part des utilisateurs des archives, des bibliothèques et des musées
  • 4. SNAC et les documents d’archives: principes Les documents d’archives : émanent de personnes, qui vivent et agissent individuellement, en groupes organisés, en familles donnent de l’information sur la vie et l’œuvre des personnes Les personnes: Evoluent dans des contextes socio-professionnels et en relations avec d’autres personnes Les documents d’archives nous informent sur ces relations Les documents d’archives produits par une même entité sont réunis en fonds ou collections et c’est l’ensemble qui est décrit On y trouve de l’information détaillée sur les producteurs Mais aussi on y fait référence à plusieurs autres “personnes” Les descriptions archivistiques documentent les relations complexes entre les personnes et les documents d’archives
  • 5. Les donnéesexploitées Instruments de recherche en EAD Library of Congress (1 159) Online Archive of California (~15 400 ) Northwest Digital Archive (5 160) Virginia Heritage (8 390) Notices d’autorité Library of Congress: NACO/LCNAF (3,8M noms de personnes; 900K noms de collectivités) Getty Vocabulary Program: Union List of Artist Names (293K noms de personnes et de collectivités) Virtual International Authority File (5M+ noms de personnes)
  • 6. Méthodes et traitements Extraction (génération) de notices EAC-CPF à partir des descriptions existantes en EAD Extraction des noms de producteurs et de tous les autres noms CPF référencés dans les instances EAD “Matcher” les notices EAC-CPF les unes avec les autres et avec les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité Enrichir et améliorer les notices EAC-CPF en normalisant les points d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN) Créer un prototype pour un système d’accès Aux données historiques et relatifs aux réseaux socio-professionnels Liens avec les ressources des archives, des bibliothèques, et des musées
  • 7. Situation des données source en EAD EncodedArchival Description Description de producteurs de documents d’archives confondus avec des noms associés aux contenus des documents d’archives Description détaillée des producteurs de documents d’archives Qualité très variable Dans le nombre des noms identifiés et encodés Dans la forme des noms (directe, inversée, utilisation des majuscules, ponctuation, etc.) Dans la catégorisation des noms (personnes, collectivités, familles) De nombreux noms apparaissent mais ne sont pas identifiés en tant que tels Dans la majorité se trouvent dans la description des biographies/histoires et dans la description des correspondances L’extraction a initialement visé les « fruits murs » (« lowhanging fruit »), c.a.d. les noms balisés en tant que tels Les autres noms qui ne sont pas identifiés en tant que tels seront progressivement traités
  • 8. Source: J. Robert Oppenheimer Papers (LoC) <origination> <persname source="lcnaf">Oppenheimer, J. Robert, 1904-1967</persname> </origination> <controlaccess> <persname source="lcnaf" encodinganalog="100" role="creator">Oppenheimer, J. Robert, 1904-1967</persname> <persname source="lcnaf" encodinganalog="600" role="subject">Bethe, Hans Albrecht, 1906- --Correspondence</persname> <!-- […] --> <persname source="lcnaf" encodinganalog="600" role="subject">Born, Max, 1882-1970 --Correspondence</persname> <persname source="lcnaf" encodinganalog="600" role="subject">Boyd, Julian P. (Julian Parks), 1903- --Correspondence</persname> <persname source="lcnaf" encodinganalog="600" role="subject">Bush, Vannevar, 1890-1974 --Correspondence</persname> <persname source="lcnaf" encodinganalog="600" role="subject">Casals, Pablo, 1876-1973 --Correspondence</persname> <!-- […] --> <corpname source="lcnaf" encodinganalog="610" role="subject">Institute for Advanced Study (Princeton, N.J.)</corpname> <corpname source="lcnaf" encodinganalog="610" role="subject">Los Alamos Scientific Laboratory</corpname> <!-- […] --></controlaccess>
  • 9. Source: Leonard Bernstein Collection (LoC)   <c02> <did> <container type="box">1</container> <unittitle>Aaltonen, Erkki<unitdate era="ce" calendar="gregorian">1981</unitdate> </unittitle> <physdesc> <extent>1</extent> </physdesc> </did> </c02> <c02> <did> <unittitle>Abbado, Claudio <unitdate era="ce" calendar="gregorian">1963-90</unitdate> </unittitle> <physdesc> <extent>5</extent> </physdesc> </did> </c02> […]
  • 10. <bioghist> <head>Biographical Sketch</head> <p>José Marcos Mugarrieta, prior to his term as Mexican consul in San Francisco 1857-1863, served in the Mexican army from 1837. He saw action in numerous battles and campaigns – Jamaica, under General Canalizoin 1841; Campeche, 1842-1843; Merida, 1843; Veracruz, 1845; Mexico City, 1846; Angostura and Cerro-gordo, 1847; Guanajuato, 1848, and Sierra-Gorda under Bustamante, 1848-1849; and Matamoros, 1849-1850. […] </p> <p>In April 1857 Mugarrieta received an appointment from the Comonfort government for the consulship in San Francisco. He did not actually begin his new duties until September 1, 1859, due to illness and to the political situation in Mexico. […]</p> </bioghist>
  • 11. <bioghist> <head>Chronology</head> <chronlist> <chronitem> <date>1900</date> <event>Born on Jan. 20 in Hastings, Minnesota.</event> </chronitem> <chronitem> <date>1922</date> <event>Received baccalaureate from Princeton University, major in philosophy. </event> </chronitem> […] <chronitem> <date>1965</date> <event>Died on April 4.</event> </chronitem> </chronlist> </bioghist>
  • 12. Standard utilisé: EAC-CPF <identity> <entityType>person</entityType> <nameEntryscriptCode="Latn" xml:lang="eng"> <part>Oppenheimer, J. Robert, 1904-1967.</part> <authorizedForm>AACR2</authorizedForm> </nameEntry> <nameEntrylocalType="VIAF:MainHeading"> <part>Oppenheimer, J. Robert (Julius Robert), 1904-1967</part> <alternativeForm>VIAF</alternativeForm> </nameEntry> <nameEntrylocalType="VIAF:MainHeading"> <part>Oppenheimer, Julius Robert, 1904-1967</part> <alternativeForm>VIAF</alternativeForm> </nameEntry> <nameEntrylocalType="VIAF:x400"> <part>Oppenheimer, Robert</part> <alternativeForm>VIAF</alternativeForm> </nameEntry> <nameEntrylocalType="VIAF:x400"> <part>Ou-pẽn-hai-mo, 1904-1967</part> <alternativeForm>VIAF</alternativeForm> </nameEntry> </identity>
  • 13. <existDates> <dateRange> <fromDatestandardDate=“1904-04-22”>1904, Apr. 22</fromDate> <toDatestandardDate=“1967-02-18”>1967, Feb. 18</toDate> </dateRange> </existDates> <!-- ... --> <localDescriptionlocalType="subject"> <term>Science--Societies, etc.</term> </localDescription> <localDescriptionlocalType="VIAF:nationality"> <placeEntrycountryCode="US"/> </localDescription> <localDescriptionlocalType="VIAF:gender"> <term>Male</term> </localDescription> <languageUsed> <language languageCode="eng"/> </languageUsed> <occupation> <term>Physicists.</term> </occupation> <!-- ... -->
  • 14. <chronList> <chronItem> <date>1904, Apr. 22</date> <placeEntry>New York, N.Y.</placeEntry> <event>Born, New York, N.Y.</event> </chronItem> <!-- ... --> <chronItem> <date>1943-1945</date> <placeEntry>Los Alamos, N. Mex.</placeEntry> <event>Director, Los Alamos Scientific Laboratory, Los Alamos, N. Mex.</event> </chronItem> <!-- ... --> <chronItem> <date>1954</date> <event>(1) Denied security clearance […] (2) Published Science and the Common Understanding […] </event> </chronItem> <!-- ... --> <chronItem> <date>1967, Feb. 18</date> <placeEntry>Princeton, N.J.</placeEntry> <event>Died, Princeton, N.J.</event> </chronItem> </chronList>
  • 15. <cpfRelationxmlns:xlink="http://www.w3.org/1999/xlink" xlink:type="simple" xlink:role="http://RDVocab.info/uri/schema/FRBRentitiesRDA/Person" xlink:arcrole="correspondedWith"> <relationEntry>Bush, Vannevar, 1890-1974.</relationEntry> <descriptiveNote> <p>recordId: DLC.ms998007.r007</p> </descriptiveNote> </cpfRelation>
  • 16. <resourceRelationxmlns:xlink="http://www.w3.org/1999/xlink" xlink:arcrole="creatorOf"xlink:role="archivalRecords” xlink:type="simple” xlink:href="http://hdl.loc.gov/loc.mss/eadmss.ms998007"> <relationEntry>J. Robert Oppenheimer Papers, 1799-1980 (bulk 1947-1967)</relationEntry> <objectXMLWrap> <did xmlns="urn:isbn:1-931666-22-9” > <unittitle>Papers <unitdate normal="1799/1980” era="ce” calendar="gregorian">1799-1980 </unitdate><unitdate label="Bulk Dates" type="bulk" normal="1947/1967” era="ce” calendar="gregorian">(bulk 1947-1967)</unitdate></unittitle> <unitidcountrycode="US" repositorycode="US-DLC">MSS35188</unitid> <origination label="Creator"> <persname>Oppenheimer, J. Robert, 1904-1967</persname> </origination> <!-- ... --> <repository><corpname>Manuscript Division. Library of Congress</corpname> </repository> <abstract>Physicist and director of the Institute for Advanced Study, Princeton, New Jersey. [...] Topics include theoretical physics, development of the atomic bomb, the relationship between government and science, nuclear energy, security, and national loyalty. </abstract> </did> </objectXMLWrap></resourceRelation>
  • 17. Premières observations - Extraction La profondeur de l’analyse et la qualité de description des entités CPF varie largement d’un instrument de recherche en EAD à l’autre Dans LoC, de nombreux noms obéissent au contrôle d’autorité Dans OAC et NWDA on trouve moins de noms et le niveau de contrôle est variable
  • 18. Etape suivante dans l’extraction Affiner les procédures de l’extraction, en appliquant des outils de Traitement Automatisé de la Langue (TAL), ex: Vérifier le type du nom : C, P ou F Reformater les noms (normaliser les formes) Identifier les chaînes de caractères qui sont potentiellement des noms mais ne sont pas identifiés en tant que tels Utiliser l’information contextuelle pour de meilleurs résultats dans les “matching”, ex.: date/dates de correspondance, ou l’occupation du producteur des documents
  • 19. Au delà du projet Créer une infrastructure pour un système national d’autorité pour les archives IMLS vient d’annoncer la subvention d’un projet pour deux ans, octobre 2011- septembre 2013 Ateliers SAA sur l’EAC-CPF : 140 bourses d’étude Planification d’un programme coopératif national portant sur les autorités dans les archives « National ArchivalAuthoritiesCooperative » SNAC II: proposition pour étendre SNAC Beaucoup plus de données NARA, Smithsonian Institution, notices MARC WorldCat, encore plus d’instruments de recherche Appel à contribution avec des données (instruments de recherche EAD et notices EAC-CPF) à la communauté internationale
  • 20. SNAC« matching » et fusion Ray Larson Université de Californie, Berkeley School of Information
  • 21. Objectif de l’équipe de Berkeley Combiner les ressources de données provenant de multiples archives et d’autres sources d’information
  • 22. Méthodes et traitements Extraction (génération) de notices EAC-CPF à partir des descriptions existantes en EAD Extraction des noms de producteurs et de tous les autres noms CPF référencés dans les instances EAD “Matcher” les notices EAC-CPF les unes avec les autres et avec les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité Enrichir et améliorer les notices EAC-CPF en normalisant les points d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN) Défis à relever: Plusieurs personnes portant le même nom Plusieurs noms pour une même personne
  • 23.
  • 24.
  • 25.
  • 26. Connecter « matcher » les correspondances exactes Les notices EAC-CPF fournissent les noms sans avoir besoin de « parser » les textes, etc. Permettent d’utiliser des méthodes simples comme les correspondances exactes: Postulat de départ: les accès identiques désignent les mêmes personnes / collectivités / familles les noms complets et les ID des notices sont entrés dans une base de donnée et les ID contenant les mêmes noms sont marquées pour être fusionnés
  • 27.
  • 28. Recherche dans les fichiers d’autorité Pour chaque nom une recherche dans VIAF est formulée en utilisant le système Cheshire (système de recherche SGML/XML avec des fonctionnalités de mise en correspondance probabilistique et booléenne) Recherche des formes d’autorité et des variantes Toute correspondance de nom est considérée comme une variante – candidate pour une mise en correspondance avec la forme d’autorité Les notices d’autorité EAC-CPF qui correspondent avec la même notice d’autorité, sont marquées comme des candidates pour une mise en correspondance
  • 29.
  • 30. Fusion des notices marquées Pour tous les « matching » exacts et les autorités correspondantes Utiliser les formes d’autorité du nom Combiner les données de chaque « matching » dans une seule notice EAC-CPF Conserver toutes les ID des notices sources et les autres informations recueillies Enfin produire (sortir/générer) des notices EAC-CPF fusionnées
  • 31.
  • 32.
  • 33. Mais Les « matching » exacts supposent que les archives suivent les pratiques de catalogage de la LoC dans leurs instruments de recherche Cette supposition pose quelques problèmes
  • 34.
  • 35.
  • 36.
  • 37.
  • 38. Traiter les échecs Où ça ne marche pas et pourquoi ? Un échantillon de la base de données est en cours de constitution pour identifier les problèmes Plusieurs problèmes constatés semblent pouvoir être résolus en utilisant: des éléments contextuels dans les documents EAD des « matching » plus sophistiqués pour les variantes phonétiques tels que les n-grams et les schémas phonétiques tel que phonex une normalisation additionnelle des noms avant fusion pour l’ordre des noms, etc. utilisation de méthodes avancées de « matching »
  • 39. Tester de nouvelles méthodes de fusion Travail effectué en conjonction avec SNAC dans le cadre d’un projet de master appelé Biograph Utilisation de SNAC et fusion avec FreeBase et IMDB
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46. Conclusion In n’y aura pas une seule méthode de fusion mais un ensemble d’approches par couches permettant d’aller des « matching » exacts, les plus simples, aux identifications fiables (on l’espère) de variantes de noms, lorsque l’information contextuelle le confirme (dates, etc.) Après fusion, c’est la phase recherche et l’affichage
  • 47. Découvrir les réseaux sociaux et historiques Demo du prototype Brian Tingle California Digital Library
  • 48. Demo Les onglets La recherche avancée
  • 49.
  • 50.
  • 51. Fonctionnalités Proposition de correction d’orthographe (suggestion de requête) Liste des variantes du nom (à la recherche, à l’affichage d’une notice) Recherche / tri par facettes (occupation, etc.) Biographie ou histoire Les entités liées
  • 52.
  • 53.
  • 54.
  • 55.
  • 56.
  • 57.
  • 58. Pour plus d’information: http://socialarchive.iath.virginia.edu/ (site web du projet) http://socialarchive.iath.virginia.edu/xtf/search (prototype public)

Hinweis der Redaktion

  1. Remember that we will solicit public evaluation and suggestions on drafts of the public interface, starting in the fall.