A N A LY S E
    WISSENSCHAFTLICHER
       P U B L I K AT I O N E N
                              adrian wilke∗



 inhalt...
1     einleitung

Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicher
Publikationen. Dies geschieht im Kont...
Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2]



dem Publizieren über den goldenen Weg, also dem d...
Journal identifiziert werden kann. Nach eigenen Angaben [8] bietet das
DOAJ (Stand: 03. Januar 2011):

   • 5.935 Zeitschri...
2.3     Directory of Open Access Journals im AAN System

Im Rahmen des Seminars „Future Social Learning Networks“ im Win-
...
Abbildung 2: Ontologie: Directory of Open Access Journals



ein weiter direkter Link zu zugehörigen PDF-Dateien hinterleg...
zugriff auf volltexte Wie bereits erwähnt, werden über die
DOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur ...
http://www.ndltd.org/resources/open-access
        http://oad.simmons.edu/oadwiki/
      • Wikipedia (de)
        http://d...
Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs-
Gemeinschaften, wie z.B. Organisationen, Personen o...
Listing 1: Beispiel eines BuRST Feeds
<?xml v e r s i o n= " 1 . 0 " encoding= "UTF−8" ?>
<?xml− s t y l e s h e e t h r e...
Listing 2: Beispiel eines OAI-PMH Aufrufs
<record>
 <header>
  < i d e n t i f i e r > o a i : d o a j . o r g : 2 0 6 7 −...
Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten



4     daten-extraktion aus pdf-dateien

Die automatische Generierung ...
Abbildung 4: ParsCit Demo - Ausgabe einer Referenz



                            Listing 3: Beipiel einer ParsCit Eingabe...
Listing 4: Beipiel einer ParsCit Ausgabe
[...]
<citationList >
 < c i t a t i o n v a l i d =" t r u e " >
  < t i t l e >...
Listing 5: Beipiel einer ParsCit Lernvorgabe
<author> CollaborateCom 1982 Programme Committee , </author>
< t i t l e > " ...
Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training
[...]
<citationList>
 < c i t a t i o n valid=" true ">
  < a u...
4.3    Herausforderungen

Für die weitere Arbeit mit extrahierten Referenzen fallen zwei mögliche
Hindernisse ins Auge. Di...
• Die Bibliometrie ist die quantitative Untersuchung von Publikatio-
        nen, Autoren und Institutionen wie Bibliothek...
Abbildung 6: Co-authorship für LWA2010, Quelle: [12]



Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaft
...
Tabelle 3: Auswertung des Beispiels Co-Citation Coupling
    CCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C)
       2        ...
Abbildung 9: Beispiel Bibliographic Coupling



        Tabelle 4: Auswertung des Beispiels Bibliographic Coupling
       ...
hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmung
des h-Index bildlich.




Abbildung 11: h-Index, Que...
5.4    Bewertungen basierend auf semantischen Relationen

Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten im
A...
6     zusammenfassung

Die vorgestellten Informationen sollen einen Einstieg der Integration
von Publikationsdaten in das ...
Nächste SlideShare
Wird geladen in …5
×

Analyse wissenschaftlicher Publikationen

4.094 Aufrufe

Veröffentlicht am

Integration und Analyse wissenschaftlicher Publikationen in Artefect-Actor-Networks.
(2) Open Access Quellen: DOAJ, EZB, NDLTD; Einbindung Ontologie
(3) Formate für Metadaten (BurST, OAI-PMH) (Dublin Core, FOAF, SWRC)
(4) Extraktion von Publikationen aus PDFs (ParsCit, CRF++)
(5) Bibliometrie, Zitationsanalyse, Co-citation Coupling, Bibliographic Coupling, h-Index, g-Index

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
4.094
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
108
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Analyse wissenschaftlicher Publikationen

  1. 1. A N A LY S E WISSENSCHAFTLICHER P U B L I K AT I O N E N adrian wilke∗ inhaltsverzeichnis 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 Directory of Open Access Journals . . . . . . . . . . . . . . . . 3 2.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . . . . . . 4 2.2.3 Networked Digital Library of Theses and Dissertations . . . . 4 2.3 Directory of Open Access Journals im AAN System . . . . . . . . . 5 2.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . . . . . . 5 2.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 7 3 Formate zum Austausch von Publikations-Metadaten . . . . . . . . . . 8 3.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.2 Semantic Web for Research Communities . . . . . . . . . . . . 8 3.1.3 The Friend of a Friend project . . . . . . . . . . . . . . . . . . . 9 3.2 Bibliography Management using RSS Technology . . . . . . . . . . 9 3.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . . . . . . 9 3.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 11 4 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . . . . . . 12 4.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 17 5 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . . . . . . 17 5.1 Begriffsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . . . . . . 19 5.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . . . . . . 20 5.3 Bibliometrisches Maße . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.4 Bewertungen basierend auf semantischen Relationen . . . . . . . . 23 5.5 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 23 6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 ∗ info@[REMOVE]adrianwilke.de 1
  2. 2. 1 einleitung Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicher Publikationen. Dies geschieht im Kontext von Artefact-Actor-Networks (AAN). Daher ist das Gebiet nicht auf die Analyse beschränkt, sondern behandelt Bereiche von der Suche nach passenden Quellen bis zur Analyse selbst. Das umfasst als Erstes Vorschläge für Sammlungen und Kataloge von Open Access Dokumenten (2), die passende Daten zur Verfügung stellen. Hierzu zählt eine bereits bestehende Anbindung an ein Verzeichnis, deren Aufbau für die praktische Arbeit von Entwick- lern nützlich sein kann. Kataloge bieten verschiedene Schnittstellen und Datenformate (3) für den Zugriff auf bereitgestellte Metadaten. Diese können in der AAN Referenzimplementierung sowohl für den Import, als auch für den Export genutzt werden. In diesem Zuge werden ver- schiedene Standards für die Beschreibung von Konzepten im Rahmen des Semantic Web vorgestellt. Nach einer Auswahl von Publikations- Quellen und der abgeschlossenen Datenbeschaffung werden Entwickler vor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren (4). Hierfür wurden bereits erste Ansätze erfolgreich getestet. Nachdem Metadaten und Volltexte aus wissenschaftlichen Veröffentlichungen extrahiert und im System abgelegt worden sind, kann mit der Analyse begonnen werden. Dazu können Metriken und Maße der Zitations- analyse (5) angewandt werden. Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar- beit mit AANs unterstützen. Deshalb wird jeder Unterabschnitt mit Ansatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis- ten sind Links zu offiziellen Webseiten oder auch Wikipedia-Artikeln aufgeführt. Wichtige Quellen aus Publikationen sind im Literaturteil aufgeführt. 2 open access journals Die Anzahl der Dokumente, die unter dem Begriff Open Access (OA) veröffentlicht werden, steigt weiter an. Es gibt gute Gründe für Autoren, ihre Texte frei zugänglich zu veröffentlichen. Neben diesen Gründen werden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku- mente gesammelt werden. Zusätzlich wird eine implementierte An- bindung an eines dieser Verzeichnisse seitens des AAN Systems präsen- tiert. 2.1 Einführung Die Recherche nach Literatur kann auch für erfahrene Wissenschaftler Hürden auftun: Bücher sind nicht unmittelbar zugreifbar, Zeitschriften sind vergriffen oder elektronische Ressourcen benötigen eine Mit- gliedschaft in einer Organisation. Diese Hindernisse sollen durch den Gebrauch von Open Access überwunden werden. Der Begriff Open Access wird von verschiedenen Organisationen unterschiedlich aus- gelegt. Einige der wichtigsten Punkte kann man der Definition der Budapest Open Access Initiative [3] entnehmen: Open Access ist im öf- fentlichen Internet frei verfügbar. Es erlaubt Benutzern, Artikel zu lesen, zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchen oder deren Volltexte zu verlinken. Dies und mehr soll ohne finanzielle, rechtliche oder technische Hürden (der Zugang zum Internet selbst ausgeschlossen) möglich sein. Einzig den jeweiligen Autoren sollten Rechte, wie das Urheberrecht, vorbehalten werden. Das Konzept wirkt aus der Sicht einer nach relevanten Informationen suchenden Person verlockend, aber inwieweit hat es sich bei Autoren durchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen aus dem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus 2
  3. 3. Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2] dem Publizieren über den goldenen Weg, also dem direkten Weg des OA, vornehmlich über den Herausgeber, und mit 11,9% über den grü- nen Weg, also z.B. der Veröffentlichung auf der Webseite der Autoren. Eine Übersicht über die OA Verfügbarkeit von Artikeln nach Fachge- bieten nach goldenem und grünem Weg ist in Grafik 1 dargestellt. Die Vorteile für berufliche und private Leser liegen klar auf der Hand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollte Autoren dazu bewegen, ihre Artikel im Internet frei zugänglich zu publizieren? Auch das ist naheliegend: Durch den einfachen Zugriff werden weniger Leser ausgeschlossen, mehr Personen lesen einen Text und daraus resultiert eine höhere Zahl von Zitierungen. Es wurde gezeigt [6], dass OA Artikel signifikant mehr Zitierungen bekommen, als auf herkömmlichen Weg publizierte Texte. Für die Analyse von Akteuren und Artefakten in einem AAN bie- ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen können aus Publikationen Volltexte, Autoren, Referenzen (also semantische Relationen) und andere Metadaten extrahiert werden. Bei solch einem Vorhaben ist eine umfangreiche Datenbasis, die bestenfalls über eine wohl-definierte Schnittstelle zugreifbar ist, wünschenswert. Im Folgen- den werden Beispiele für mögliche Quellen gegeben. 2.2 Verzeichnisse Die hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun- gen, die Metadaten, Referenzierungen und zum Teil auch Volltexte zu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver- zeichnisse bieten sich, neben der Nutzung zur persönlichen Recherche, zur Sammlung und Extraktion von analysierbaren Daten an. 2.2.1 Directory of Open Access Journals (DOAJ) Das Directory of Open Access Journals ist ein Service, der einen Zugang zu Open Access Journals anbietet. Das Angebot wird von der Biblio- thek der Universität Lund (Schweden) zur Verfügung gestellt. Die an- gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien. Neben dem freien Zugang muss eine Zeitschrift eine Qualitätskontrolle, z.B. ein Peer-Review, durchführen. Die freie Veröffentlichung muss ohne Verzögerung geschehen, eine Registrierung durch Benutzer für den Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschrift benötigt eine International Standard Serial Number (ISSN), mit der ein 3
  4. 4. Journal identifiziert werden kann. Nach eigenen Angaben [8] bietet das DOAJ (Stand: 03. Januar 2011): • 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten • Insgesamt 491.409 Artikel • 247 Informatik-Zeitschriften. Ein großer Teil der Daten kann über das OAI-Protokoll (siehe Ab- schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfügung gestellt, mit denen es möglich ist, Metadaten von Zeitschriften oder Artikeln abzufragen. Eine andere Quelle in deutscher Sprache, in der erheblich mehr Zeitschriften verzeichnet sind, ist die EZB. 2.2.2 Die Elektronische Zeitschriftenbibliothek der Universität Regensburg Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurde um Januar 2001 durch einen Kooperationsvereinbarung zwischen ver- schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriften werden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mit verschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welche Zugriffsmöglichkeiten (z.B. frei zugänglicher Volltext) für den Benutzer bestehen. Eine Übersicht über das Angebot nach Angaben der Univer- sität [11] zeigt die folgende Liste. Die Anzahl der Treffer der Informatik- Zeitschriften ergab sich durch eine Suchanfrage auf der Webseite. • 51.936 Titel zu allen Fachgebieten • 6.999 davon sind reine Online-Zeitschriften • 26.919 Fachzeitschriften sind im Volltext frei zugänglich • 454 Informatik-Zeitschriften mit frei zugänglichen Volltexten Zusätzlich zur Suche auf der Webseite konnte keine weitere Schnittstelle zum Angebot der EZB gefunden werden. Neben OA Quellen für Publikationen existieren auch Verzeichnisse für wissenschaftliche Arbeiten, wie die NDLTD. 2.2.3 Networked Digital Library of Theses and Dissertations (NDLTD) Die Networked Digital Library of Theses and Dissertations (NDLTD) ist eine Vereinigung verschiedener Institutionen, hauptsächlich Uni- versitäten der Vereinigten Staaten. Die NDLTD bietet seit 1996 einen gemeinsamen Katalog an, in dem Metadaten zu elektronischen Ab- schlussarbeiten und Dissertationen (electronic theses and dissertations, ETDs) verzeichnet sind. Nach Angaben auf der Webseite [10] und einer Anfrage über die angebotene Scirus ETD Suche nach „Computer Sci- ence“ im Bereich „Engineering, Energy and Technology“ ergab für das Angebot folgende Zahlen: • über 1.000.000 Einträge zu ETDs • 133.996 Einträge für den Bereich Informatik Neben der Scirus ETD Suche des Verlags für wissenschaftliche Zeit- schriften Elsevier, über die auch ein Zugriff zu Volltexten möglich ist, wird eine Suche über den VTLS Visualizer angeboten. Dort kön- nen erweiterte Möglichkeiten der Sortierung und Filterung angegeben werden. Zusätzlich zu den hier vorgestellten Quellen wird im Folgenden ein Ansatz zur Anbindung einer der oben aufgeführten Quellen vorgestellt. 4
  5. 5. 2.3 Directory of Open Access Journals im AAN System Im Rahmen des Seminars „Future Social Learning Networks“ im Win- tersemester 2010/11 an der Universität Paderborn wird derzeit ein Prototyp zur Datenbeschaffung aus dem DOAJ entwickelt. Die Ent- wicklung findet unter dem Thema „Tools for Awareness in Distributed Research Networks“ statt und soll mit Unterstützung des AAN Systems erweiterte Möglichkeiten bieten, gezielte Einblicke in wissenschaftliche Arbeiten zu werfen, um das Bewusstsein über vorhandene und aktuelle Entwicklungen zu erweitern. An dieser Stelle wird ein Einblick in die Vorgehensweise der Entwicklung gegeben. 2.3.1 Parser-Entwicklung: Best Practices Bei der Entwicklung von Parser-Komponenten als Teil der AAN Ref- erenzimplementierung hat sich eine Reihenfolge von Teilabläufen als praktikabel erwiesen. Die einzelnen Abläufe sollten sich in Teilen über- lappen, um eine flüssige Integration und eine Minimierung von Pro- blemen zu gewährleisten. Diese Punkte wurden für die Komponente DoajParser in großen Teilen abgeschlossen: 1. Sichtung verfügbarer Daten 2. Vergleich zugreifbarer Schnittstellen 3. Extraktion von Daten 4. Entwicklung einer Ontologie 5. Datenspeicherung Der erste Schritt ist die Sichtung verfügbarer Daten. Dazu werden die von einem potenziellen Quellnetzwerk angebotenen Daten nach Eignung für AANs untersucht. Nutzbare Daten sind durch eine Er- weiterung der Grundontologie in das semantische Modell integrierbar und passen inhaltlich zu den aktuellen Zielen, die umgesetzt werden sollen. Im DOAJ sind dies im Wesentlichen die wissenschaftlichen Publikationen und deren Autoren, die als Artefakte und Akteure in- tegrierbar sind. Im zweiten Schritt wird eine passende Schnittstelle gewählt. Diese sollte möglichst alle öffentlich zugänglichen Daten zur Verfügung stellen und nicht durch Restriktionen eingeschränkt sein. Gängige Schnittstellen sind APIs oder andere Interfaces, die Daten in der XML anbieten. Eine Schnittstelle, die fast in jedem Fall möglich ist, ist das Parsen des HTML-Codes. Auf der DOAJ Webseite werden zwei URIs (siehe Abschnitt 2.4) angeboten, über die Daten zu Artikeln und Zeitschriften im Format des OAI-Protokolls (siehe Abschnitt 3.3) zu- greifbar sind. Die Extraktion der Daten sollte vor der genauen Definition einer Ontologie geschehen, da bereits extrahierte und direkt zugreifbare Daten einen Überblick darüber geben, welche Daten in der Praxis tat- sächlich zur Verfügung stehen und abgelegt werden können. Die Extrak- tion der Daten verlief im Fall von DOAJ ohne Probleme. Im nächsten Schritt, der Einbettung der Daten in die Ontologie, wurde festgestellt, dass Kategorien nur für Zeitschriften und nicht für Artikel angeboten werden. Dies ist für eine Beschreibung der Artikel schade, die Infor- mationen können jedoch nachträglich über die Zeitschrift-Ressourcen aus dem Modell beschafft werden. Während des letzten Schrittes, der Datenspeicherung, wurde festgestellt, dass die semantischen Daten eine umfangreiche Beschreibung der Datensätze liefern, die Volltexte aller- dings in einem sehr eingeschränkten Umfang zur Verfügung stehen. Es wird nur ein kleiner Teil des ursprünglichen Volltexts angeboten. Zwar werden in den Metadaten zusätzlich Informationen einer Quelle, in den meisten Fällen eine Webseite, bereitgestellt, die über die URL erreich- baren Ziele sind jedoch heterogen. Teils wird auf den verlinkten Seiten 5
  6. 6. Abbildung 2: Ontologie: Directory of Open Access Journals ein weiter direkter Link zu zugehörigen PDF-Dateien hinterlegt, teils wird auf den verlinkten Seiten auch ein Login benötigt. In manchen Fällen werden in den Metadaten auch URLs hinterlegt, die ein PDF ohne Umweg über eine Webseite verlinken. Das Schema, nach dem die semantischen Beziehungen von DOAJ Ressourcen angelegt werden, wird im folgenden Abschnitt vorgestellt. 2.3.2 Ontologie Die Ontologie zu DOAJ-Ressourcen ist in Abbildung 2 dargestellt. Die Hauptklassen, OpenAccessJournal und OpenAccessJournalArticle, sind Spezialisierungen des ScientificDocumentArtefact aus dem Block AANSci- entificMedia. Extrahierte Autoren werden als ScientificDocumentActor an- gelegt und durch semantische Relationen mit Artefakten in Verbindung gesetzt. Für Zeitschriften und Artikel werden eine Reihe von Liter- alen definiert, die keiner eigenen Klasse benötigen, trotzdem aber beschreibende Metadaten liefern. Zur Beschreibung der Ressourcen gibt es zwei Spezialisierungen von Keywords, DoajCategory und Doa- jTag. Der Unterschied dieser Klassen ist, dass Kategorien vorgegeben und auswählbar sind, wohingegen Tags, z.B. direkt in Artikeln, frei wählbar sind. Kategorien sind nur für Zeitschriften definiert. Die Kate- gorie LCC wurde dem Block AANScientificMedia hinzugefügt, da dies eine Kategorie ist, die zukünftig möglicherweise zur Beschreibung von Artefakten außerhalb von DOAJ ebenfalls genutzt werden könnte. LCC steht für „Library of Congress Classification“, eine Klassifikation in hierarchischer Struktur. So könnte eine Zeitschrift des Bereichs Infor- matik über die LCC mit QA75.5-76.95 beschrieben werden, QA wäre Mathematik und ein alleinstehendes Q betrifft den allgemeinen Bereich der Wissenschaft. Insgesamt verlief die Entwicklung der DOAJ Kom- ponente reibungslos. Um jedoch an dieser Stelle schon auf mögliche, in Zukunft auftretende, Herausforderungen einzugehen, werden diese nachfolgend beschrieben. 2.3.3 Herausforderungen Während der Entwicklung der DOAJ Komponente wurden erste Her- ausforderungen im Hinblick auf die weitere Arbeit mit Publikationen sichtbar. In diesem Teil werden diese im Hinblick auf Volltexte, URIs und Parser behandelt. 6
  7. 7. zugriff auf volltexte Wie bereits erwähnt, werden über die DOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur Ver- fügung gestellt, um auf Volltexte zugreifen zu können. Im günstigsten Fall wird ein PDF direkt verlinkt, so dass die Informationsquelle ohne weitere Umwege zur Verfügung steht. Auch verlinkte Webseiten, auf denen ein Link mit dem Textinhalt „PDF“ zum Volltext aufgeführt ist, sollten kein großes Hindernis darstellen. Für Webseiten, die eine Anmeldung benötigen, ist abzuwägen, ob eine Funktionalität zur Verfü- gung gestellt werden sollte, die dies automatisiert durchführt. Sinnvoll erscheint dies nur, über die Anmeldung eine große Menge von Daten zur Verfügung gestellt wird. Ein möglicher Weg zur Extraktion von Daten wird in Abschnitt 4 behandelt. eindeutiger bezeichner für ressourcen Eine weitere Her- ausforderung ist die Generierung von eindeutigen Bezeichnern für Artefakte und Akteure. Diese Bezeichner werden, neben der Sicher- stellung der Eindeutigkeit, benötigt, um semantische Relationen zwis- chen Artefakten festzulegen. Jede Ressource wird im AAN System über eine URI identifiziert. Diese URI liegt für Web-basierte Ressourcen oft auf der Hand, da Artefakte sowie Akteure im Allgemeinen über eine eigene Webseite zugreifbar sind. Für wissenschaftliche Publika- tionen und Autoren ist dies nicht selbstverständlich. Es wurde daher vorgeschlagen, für Autoren URIs zu generieren, die einzig durch ihren Namen zusammengesetzt werden. Für URIs von Publikationen bietet sich eine Kombination der Autoren-Namen und der Titel der jeweiligen Veröffentlichung an. Dies kann zu Problemen führen, wenn für Au- torennamen verschiedene Schreibweisen genutzt werden. Zum Beispiel können Vornamen abgekürzt werden, zweite Vornamen nur teilweise auftauchen oder die Reihenfolge von Vor- und Nachnamen variieren. Ein verwandtes Problem ist die Identifizierung verschiedener Personen mit gleichem Namen. wahl eines parsers Ein vergleichsweise minderer Umstand ist die Wahl eines geeigneten Parsers. Während eines Crawling-Jobs kön- nen Referenzen auf verschiedenartige PDF-Dateien gefunden werden. Nicht jede dieser Dateien ist zwangsläufig eine wissenschaftliche Veröf- fentlichung. Hier sollte, bei Kenntnis über die Dateiart, unterschieden werden, ob ein PDF zur Analyse von Publikations-Metadaten oder zur allgemeinen Extraktion von Schlüsselwörtern genutzt werden soll. Ein Ansatz wäre eine Funktionalität, mit der eine AAN Komponente eine andere AAN Komponente vorschlagen kann, die zur Extraktion genutzt werden sollte. Die folgende Liste ist eine Sammlung von Punkten zur weiteren Recherche. Nach den in diesem Teil vorgestellten Quellen für wis- senschaftliche Arbeiten und Veröffentlichungen werden, im auf die Liste mit Recherche-Ansätzen folgenden Abschnitt, Möglichkeiten für den Austausch von Publikations-Metadaten gezeigt. 2.4 Ansatzpunkte zur weiteren Recherche • Directory of Open Access Journals (DOAJ) http://www.doaj.org/ http://www.doaj.org/doaj?func=loadTempl&templ=faq#metadata • Die Elektronische Zeitschriftenbibliothek der Universität Regensburg http://ezb.uni-regensburg.de/ http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU • Networked Digital Library of Theses and Dissertations (NDLTD) http://www.ndltd.org/ • Open Access Ressourcen http://www.soros.org/openaccess http://www.lib.umich.edu/copyright/open-access 7
  8. 8. http://www.ndltd.org/resources/open-access http://oad.simmons.edu/oadwiki/ • Wikipedia (de) http://de.wikipedia.org/wiki/Open_Access http://de.wikipedia.org/wiki/Open-Access-Zeitschrift http://de.wikipedia.org/wiki/Library_of_Congress_Classification • Wikipedia (en) http://en.wikipedia.org/wiki/Open_access_journalt http://en.wikipedia.org/wiki/Open_access_%28publishing%29 http://en.wikipedia.org/wiki/Library_of_Congress_Classification 3 formate zum austausch von publikations-metadaten Es existieren verschiedene Standards, um Konzepte des Semantic Web einheitlich zu beschreiben. Für die anschließende Vorstellung von For- maten zum Austausch von Metadaten werden an dieser Stelle einige Standards vorgestellt, die zur Beschreibung der Austauschformate ver- wendet werden. Zur Verdeutlichung der Unterschiede zwischen den Standards werden hier gezielt die verwendeten Konzepte aufgelistet. 3.1 Standard-Vokabularien Im Kontext des Semantic Web werden in verschiedensten Projekten Vokabularien benötigt, um Ressourcen zu klassifizieren. Innerhalb von eigenständigen Projekten wäre es möglich, individuelle Schemata zu verwenden. Spätestens bei dem Austausch von Daten werden hier schnell Inkonsistenten beobachtbar und verschiedene Schemata damit nicht vergleichbar. Zur Vereinheitlichung von Vokabularien gibt es standardisierte Konventionen, um auf eine einheitliche Basis bei der Benennung und Nutzung von Begriffen zurückgreifen zu können. Im Folgenden werden einige ausgewählte Standards vorgestellt, die beim Austausch von Publikations-Metadaten genutzt werden. 3.1.1 Dublin Core Das Dublin Core Metadata Element Set ist eine 15-elementige Menge von Vokabeln, die zur einheitlichen Beschreibung von Klassen vorge- schlagen wird. Urheber dieser Menge ist die 1994 gegründete offene Organisation Dublin Core Metadata Initiative (DCMI). Die 15 Elemente der Menge bilden den Kern, der als RFC, ISO und ANSI/INSO Stan- dard veröffentlicht wurde. Die zugehörigen Elemente sind: contributor, coverage, creator, date, description, format, identifier, language, publisher, re- lation, rights, source, subject, title und type. Diese Menge an Elementen steht unter ständiger Weiterentwicklung. Ein zusätzlicher Namensraum schlägt folgende Elemente vor: abstract, accessRights, accrualMethod, ac- crualPeriodicity, accrualPolicy, alternative, audience, available, bibliograph- icCitation, conformsTo, created, dateAccepted, dateCopyrighted, dateSubmit- ted, educationLevel, extent, hasFormat, hasPart, hasVersion, instructional- Method, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, license, mediator, medium, modified, provenance, refer- ences, replaces, requires, rightsHolder, spatial, tableOfContents, temporal und valid. Diese Elemente bilden eine Grundlage, um allgemeine Artefakte, wie sie z.B. im Internet oft auffindbar sind, und deren Relationen zu beschreiben. Zusätzlich zu diesen generellen Angaben existieren weit- ere Ansätze, wie SWRC, die für die Beschreibung spezieller Kontexte ausgelegt sind. 3.1.2 Semantic Web for Research Communities (SWRC) Die SWRC Ontologie wurde am Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) des Karlsruher Institus für 8
  9. 9. Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs- Gemeinschaften, wie z.B. Organisationen, Personen oder Publikatio- nen und deren Beziehungen. Um einen guten Einblick über die Un- terschiede der Vokabularien zu geben, hier eine umfangreiche (aber unvollständige) Liste der definierten Konzepte: Proceedings, SoftwarePro- ject, ProjectReport, ResearchTopic, Association, InCollection, Booklet, InPro- ceedings, InBook, SoftwareComponent, Institute, Department, Unpublished, Lecture, MasterThesis, Manual, Manager, ResearchGroup, Exhibition, Misc, Book, FullProfessor, Lecturer, Article, AcademicStaff, Product, Meeting, Pro- jectMeeting, AssistantProfessor, Student, Undergraduate, Workshop, Event, Conference, FacultyMember, AssociateProfessor, Report, TechnicalReport, Re- searchProject, Graduate, PhDStudent, Project, DevelopmentProject, Techni- calStaff, Thesis, PhDThesis, University, Organization, Enterprise, Employee, AdministrativeStaff, Topic, Person und Publication. Es ist zu erkennen, dass eine Reihe von Konzepten aus dem Kontext von Universität, Lehre und Forschung definiert werden. Darüber hinaus gibt es Konzepte wie Chapter, ISBN, Year oder Pages, die eine hohe Korrelation mit Bib- TeX Elementen aufweisen. Ein Vokabular, das eher auf die Rollen und Beziehungen von Personen aufbaut, ist FOAF. 3.1.3 The Friend of a Friend (FOAF) project Das Friend of a Friend (FOAF) project definiert Konzepte, mit denen Personen, Beziehungen zwischen ihnen und den Artefakten, die sie erstellen, beschrieben werden können. Der Kern der definierten Voka- beln besteht aus den Elementen: Agent, Person, name, title, img, depiction (depicts), familyName, givenName, knows, based_near, age, made (maker), primaryTopic (primaryTopicOf), Project, Organization, Group, member, Docu- ment und Image. Außerdem existiert eine Erweiterung für die Belange des Social Web, die etwa nick, homepage, jabberID, interest, account oder thumbnail definiert. Die hier vorgestellten Standards bilden Teile von Versionen des Austauschformats BuRST. 3.2 Bibliography Management using RSS Technology (BuRST) BuRST ist eine Spezifikation zum Austausch von bibliografischen Infor- mationen. Das Format wird im Rahmen des EU-Projektes Sustaining Technology Enhanced Learning at a LARge scale (STELLAR) entwickelt. Es setzt für den Austausch von Daten auf das RSS Format in Version 1.0. Für die Beschreibung der Daten wird kein eigenes, neues Vokabular verwendet. Stattdessen wird vorgeschlagen, wie vorhandene Standards kombiniert werden können um Publikationen sinnvoll zu beschreiben. Dafür werden Elemente aus Dublin Core und SWRC genutzt. In der ak- tuellen Version werden keine Elemente aus dem FOAF-Projekt genutzt, voraussichtlich wird dies aber in der nächsten Version wieder der Fall sein. Um einen Eindruck des Formats zu schaffen, gibt Listing 1 eine gekürzte Version eines BuRST Feeds wieder. Das BuRST Format bietet ein breites Spektrum von Möglichkeiten, Publikationen zu beschreiben. Daher ist es ein Kandidat für den Import und Export von wissenschaftlichen Veröffentlichungen im AAN System. Eine Liste mit Institutionen, die das Format bereits für den Export nutzen, ist in Abschnitt 3.4 aufgeführt. Der Umfang der Spezifikation und die laufende Entwicklung stellen allerdings auch Argumente gegen die Nutzung dar. Für den Austausch von Publikations-Metadaten ist neben BuRST auch das OAI-Protokoll ein Kandidat. 3.3 The Open Archives Initiative Protocol for Metadata Harvesting Das Open Archives Initiative Protocol for Metadata Harvesting ist eine Spezifikation, um Schnittstellen zum Austausch von Datensätzen bereit- 9
  10. 10. Listing 1: Beispiel eines BuRST Feeds <?xml v e r s i o n= " 1 . 0 " encoding= "UTF−8" ?> <?xml− s t y l e s h e e t h r e f = " xmlverbatimwrapper . x s l " type= " t e x t / x s l " ?> <rdf:RDF xmlns= " h t t p : //p u r l . org/ r s s /1.0/ " x m l n s : r d f = " h t t p : //www. w3 . org /1999/02/22 − rdf −syntax −ns # " x m l n s : r d f s = " h t t p : //www. w3 . org /2000/01/ rdf −schema# " xmlns:swrc= " h t t p : //swrc . ontoware . org/ontology/ontoware # " x m l n s : f o a f = " h t t p : //xmlns . com/ f o a f /0.1/ " x m l n s : t a x o = " h t t p : //p u r l . org/ r s s /1.0/ modules/taxonomy/ " xmlns:dc= " h t t p : //p u r l . org/dc/elements /1.1/ " xmlns:syn= " h t t p : //p u r l . org/ r s s /1.0/ modules/ s y n d i c a t i o n / " xmlns:admin= " h t t p : //webns . n e t /mvcb/ " x m l n s : b u r s t = " h t t p : //xmlns . com/ b u r s t /0.1/ " x m l : b a s e= " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " > < r s s : c h a n n e l r d f : a b o u t = " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " > < r s s : t i t l e > P e t e r Mika ’ s p u b l i c a t i o n s </ r s s : t i t l e > < r s s : l i n k > h t t p : //www. c s . vu . n l /~pmika/ r e s e a r c h /pub . rdf </ r s s : l i n k > <rss:description > Semantic Web r e l a t e d p u b l i c a t i o n s authored by P e t e r Mika . </ r s s : d e s c r i p t i o n > <rss:items > <rdf:Seq > < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 1 " /> < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 2 " /> </ r d f : S e q > </ r s s : i t e m s > < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~mcaklein/pub . r d f " /> </ r s s : c h a n n e l > < r s s : i t e m r d f : a b o u t =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t #1" > < r s s : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o − DOLCE</ r s s : t i t l e > < r s s : l i n k > h t t p : //www2004 . org/p roc eed ing s/docs /1p563 . pdf</ r s s : l i n k > < r s s : d e s c r i p t i o n >An a b s t r a c t o f t h e document</ r s s : d e s c r i p t i o n > < d c : s u b j e c t >Semantic Web</ d c : s u b j e c t > <burst:publication > <swrc:InProceedings > < s w r c : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o − DOLCE</ s w r c : t i t l e > <s w r c : a u t h o r > < f o a f : P e r s o n r d f : I D =" PeterMika " > <foaf:name > P e t e r Mika</foaf:name > < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ f o a f . r d f " /> </ f o a f : P e r s o n > </s w r c : a u t h o r > < s w r c : b o o k t i t l e >Pro ceedings o f t h e 13 th I n t e r n a t i o n a l World Wide Web Conference (WWW2004) </ s w r c : b o o k t i t l e > < s w r c : y e a r >2004</ s w r c : y e a r > <swrc:pages >563−−573</swrc:pages > </ s w r c : I n P r o c e e d i n g s > </ b u r s t : p u b l i c a t i o n > </ r s s : i t e m > </rdf:RDF > zustellen. Es basiert auf dem Hypertext Transport Protocol und der XML. Die Interoperabilität wird durch eine Strukturierung nach Dublin Core gefördert. Die Schnittstelle des OAI-Protokolls wird über URLs bereitgestellt. Ein Beispiel-Aufruf einer URL ist http://archive.org/oai ?verb=ListRecords &metadataPrefix=oai_dc. Hier ist der Hauptparameter jeden Aufrufs erkennbar, ein Schlüssel-Wert-Paar der Form verb=Wert. Mit diesem Verb wird einer der 6 Anfrage-Typen angegeben: Iden- tify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords oder Ge- tRecord. Das Verb ListRecords ist der häufigst genutzte Anfragetyp, seine Rückgabe besteht aus einer Liste von Datensätzen. Die Flusskontrolle der Protokolls besteht nicht aus einer Form, in der der erste gewün- schte Datensatz (in der Form startEntry=50) manuell generiert werden muss. Die Rückgabe eines Aufrufs stellt ein sogenanntes resumption- Token Token innerhalb der XML-Daten bereit. Dieses Token kann bei Folgeaufrufen genutzt werden, um an eine Anfrage anzuknüpfen. Eine Beispielrückgabe ist in Listing 2 gezeigt. Es ist zu erkennen, dass die zurückgegebenen Felder sehr homogen geformt sind. Jedes Feld wird ausnahmslos über Dublin Core be- schrieben. Die XML-Verschachtelung eines einzelnen Eintrags wird jedoch nicht stark genutzt, die Metadaten-Einträge befinden sich alle 10
  11. 11. Listing 2: Beispiel eines OAI-PMH Aufrufs <record> <header> < i d e n t i f i e r > o a i : d o a j . o r g : 2 0 6 7 − 3957</ i d e n t i f i e r > <datestamp>2010 − 05 − 12 T 2 0 : 1 9 : 2 4 Z </datestamp> </header> <metadata> < o a i _ d c : d c x s i : [ . . . ] o a i _ d c . xsd " > <dc:title > B r a i n . Broad Research i n A r t i f i c i a l I n t e l l i g e n c e and Neuroscience </ d c : t i t l e > < d c : i d e n t i f i e r > h t t p : // b r a i n . e d u s o f t . ro/index . php/brain </ d c : i d e n t i f i e r > < d c : i d e n t i f i e r > i s s n : 2067 − 3957</ d c : i d e n t i f i e r > < d c : p u b l i s h e r >EduSoft p u b l i s h i n g </ d c : p u b l i s h e r > < d c : d a t e >2009</ d c : d a t e > <dc:language >English </dc:language > < d c : s u b j e c t > a r t i f i c i a l i n t e l l i g e n c e </ d c : s u b j e c t > < d c : s u b j e c t >LCC: RC321 −571</ d c : s u b j e c t > < d c : s u b j e c t >LCC: RC346 −429</ d c : s u b j e c t > < d c : s u b j e c t > D o a j S u b j e c t T e r m : Computer S c i e n c e </ d c : s u b j e c t > </ o a i _ d c : d c > </metadata > </record > auf gleicher Höhe. Wie zu erkennen ist, gibt es in dem Beispiel drei verschiedene Arten von Kategorien. Diese werden durch ein Präfix voneinander unterschieden. So werden verschiedene Konzepte in der Baumstruktur gleich dargestellt: Das Tag „artificial intelligence“, die LCC-Kategorien und die DOAJ Kategorie „Computer Science“. In der Praxis hat dies jedoch kein Problem dargestellt, über die Präfixe kon- nten alle Konzepte ohne Probleme erkannt und die Daten extrahiert werden. In Abschnitt 3.4 ist je eine Webseite mit Quellen, die per OAI- Protokoll zugreifbar sind und Richtlinien für die Implementierung eines eigenen Archivs aufgeführt. Bis zu diesem Punkt wurden Open Access Quellen und Formate für die Übertragung von Metadaten vorgestellt. Mit diesen Informationen können bereits Metadaten von wissenschaftlichen Veröffentlichungen extrahiert werden. Der nächste Teil dieses Textes befasst sich mit der Ex- traktion von Daten aus Publikationen im PDF-Format. Vorerst werden aber noch Ressourcen für eine weitere Recherche bereitgestellt. 3.4 Ansatzpunkte zur weiteren Recherche • Dublin Core http://dublincore.org/documents/dcmi-terms/ http://de.wikipedia.org/wiki/Dublin_Core • Semantic Web for Research Communities http://ontoware.org/swrc/ • The Friend of a Friend (FOAF) project http://www.foaf-project.org/ • BuRST http://stellarnet.eu/d/6/3/BuRST_format_adaption_discussion http://www.cs.vu.nl/~pmika/research/burst/BuRST.html http://stellarnet.eu/d/6/3/Directory_of_BuRST_feeds http://www.cs.vu.nl/~pmika/research/thesis/thesis.pdf http://web.resource.org/rss/1.0/spec • OAI-Protokoll http://www.openarchives.org/pmh/ http://www.oaforum.org/tutorial/ http://www.openarchives.org/OAI/openarchivesprotocol.html http://www.openarchives.org/Register/BrowseSites http://www.openarchives.org/OAI/2.0/guidelines-repository.htm 11
  12. 12. Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten 4 daten-extraktion aus pdf-dateien Die automatische Generierung von Publikations-Netzwerken, verbun- den durch Zitierungen ist eine nicht-triviale Aufgabe. Veröffentlichun- gen werden mit unterschiedlichen Vorgaben für Layouts erstellt. Das gilt für die Textstruktur, wie auch für den Literatur-Abschnitt, mit dem der Kontext einer Veröffentlichung erfasst werden kann. Für die Formatierung und die Reihenfolge von Zitaten gibt es verschiedene Standards. Diese erschweren neben versehentlichen Fehlangaben in Publikationen die Extraktion von einzelnen Bestandteilen (z.B. Titel, Autor, Zeitschrift). Der Schwerpunkt dieses Abschnitts liegt auf der Software ParsCit, welche eine der führenden Umsetzungen für die Analyse und Extraktion von Bestandteilen wissenschaftlicher Artikel ist. 4.1 ParsCit Die quelloffene Software ParsCit stellt Funktionen zur Verfügung, um logische Dokument-Strukturen aus einer gegebenen Publikation zu extrahieren. Priorisiert wird dabei die Extraktion und Analyse von Referenz-Strings. Dazu wird das Conditional Random Field (CRF) Mo- dell, gekoppelt mit heuristischen Verfahrensweisen genutzt. Das CRF ist ein ungerichtetes grafisches Modell zu Taggen von sequenziellen Daten, wie natürlicher Sprache. Damit ist es möglich, Lernverfahren anzuwenden, um das CRF zu trainieren. Für ParsCit wird die CRF Implementierung CRF++ genutzt. Nachfolgend wird die Arbeitsweise der Software und anschließend die praktische Anwendung beschrieben. 4.1.1 Arbeitsweise Die Extraktion mittels ParsCit ist in [4] beschrieben. Zunächst müssen, basierend auf der Ausgabe von CRF++, einige Schritte durchgeführt werden. Die Namen der Autoren verschiedener Schreibweisen (z.B. „M. Mustermann“ oder „Mustermann, Max“) werden normalisiert, also in ein einheitliches Format überführt. Diese Normalisierung wird auch für Nummern („vol. 7“), Jahresangaben und Seitenzahlen („pp. 13- 42“) durchgeführt. Nach der Segmentierung der Referenzen wird der Haupttext mittels regulärer Ausdrücke nach Zitaten durchsucht. Dabei werden drei verschiedene Typen von Formatierungen berücksichtigt: Einfache Nummerierungen („7“ oder „7.“), Strings in Klammern („(7)“, „[7, 13]“ oder „[Mustermann11]“) und unmarkierte Listen, wie beim APA Stil. Dabei wird so vorgegangen, dass einfache Nummerierungen nur genutzt werden, wenn keine Klammer-Notation gefunden wurde. Interne Referenzierungen (z.B. „siehe Abbildung 3“) werden nicht ein- bezogen. Außerdem wird jeder reguläre Ausdruck auf den Haupttext angewandt, um eine Liste von Kontext-Inhalten zu generieren. Die prak- tische Ausführung dieser Arbeitsweise wird nachfolgend beschrieben. 12
  13. 13. Abbildung 4: ParsCit Demo - Ausgabe einer Referenz Listing 3: Beipiel einer ParsCit Eingabe A r t e f a c t −Actor −Networks as t i e between s o c i a l networks and a r t e f a c t networks Wolfgang Reinhardt U n i v e r s i t y o f Paderborn I n s t i t u t e f o r Computer S c i e n c e 33102 Paderborn , Germany Email : wolle@upb . de [...] A b s t r a c t − S o c i a l networks r e f l e c t communication , c o o p e r a t i o n and l o o s e a c q u a i n t a n c e s i n networked communities . Numerous [...] REFERENCES [ 1 ] CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf , 2 0 0 9 . [ 2 ] J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f personal r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press , 1969. [...] [ 2 1 ] T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17 , J u l y 2 0 0 9 . [ 2 2 ] U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / , retrieved on 2009 − 07 − 17, J u l y 2 0 0 9 . [...] 4.1.2 Anwendung ParsCit stellt zwei Wege der Anwendung bereit: Einen Webservice und die lokale Ausführung. Hinweise zur jeweiligen Ausführung wer- den auf der Webseite (siehe Abschnitt 4.4) und in den dem Code beigefügten Readme-Dateien gegeben. Auf der Webseite werden zu- dem Web-basierte Demonstrationen zur Verfügung gestellt. Für einen ersten, grafisch aufbereiteten, Einblick wurde die Demo #1 mit der auf der Webseite verlinkten Datei E06-1050.txt ausgeführt. Teile der Aus- gabe sind in den Abbildungen 3 und 4 dargestellt. Die Kopfangaben der Textdatei wurden im Vergleich auf die Quelle fehlerfrei extrahiert. Obwohl es für eine eigene Referenz nicht verwunderlich gewesen wäre, wenn alle Daten ohne Fehler erkannt worden wären, gibt es kleinere Ab- weichungen in der Ausgabe der ersten Referenz. In Abbildung 4 ist eine Legende der möglichen Felder, dem Ursprungstext, einem Ausschnitt aus dem Haupttext mit dem eigentlichen Zitat und das Extraktions- Ergebnis zu sehen. Bei der Angabe des Bandes fehlt der Zusatz „(2)“ und die Seitenzahlen fehlen gänzlich. Die wichtigsten Angaben, Autor und Titel werden jedoch korrekt erkannt. Für eine praktische Verwendung innerhalb des AAN Systems bietet sich die direkte Nutzung des Codes an. Auf den Zugriff über den Webservice per Web Services Description Language (WSDL) wird daher an dieser Stelle nicht weiter eingegangen. Stattdessen wurde ParsCit auf einem Testsystem installiert. Um einen Praxistest durchzuführen, wurde eine AAN Veröffentlichung [9] ausgewertet. Dazu muss ein PDF zunächst in UTF-8 kodierten Reintext konvertiert werden. Dies kann 13
  14. 14. Listing 4: Beipiel einer ParsCit Ausgabe [...] <citationList > < c i t a t i o n v a l i d =" t r u e " > < t i t l e >Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom </ t i t l e > <date >2009</ date > < i n s t i t u t i o n >CollaborateCom </ i n s t i t u t i o n > <note > h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf</note > <contexts > <context position ="1330" c i t S t r = " [ 1 ] " startWordPosition ="175" endWordPosition ="175" > through t h e e x i s t e n c e o f A r t e f a c t A c t o r −Networks . I . INTRODUCTION Computer mediated communication (CMC) has evolved t o an important f a c t o r o f i n d u s t r y , s c i e n c e and r e s e a r c h wi thin t h e l a s t decades . As [ 1 ] puts i t , we produce j o i n t products and a c h i e v e h i g h e r p r o d u c t i v i t y by e l e c t r o n i c c o l l a b o r a t i o n between d i s t r i b u t e d teams o f humans , computer a p p l i c a t i o n s , and/or autonomous r o b o t s . Todays communicati </ c o n t e x t > </ c o n t e x t s > <marker >[1] </ marker> <rawString >CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf , 2009. </ rawString > </ c i t a t i o n > < c i t a t i o n v a l i d =" t r u e " > <authors > <author > J C M i t c h e l l </author > </authors > < t i t l e > S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns</ t i t l e > <date >1969</ date > < p u b l i s h e r >Manchester : U n i v e r s i t y Press </ p u b l i s h e r > <contexts > <context position ="2258" c i t S t r = " [ 2 ] " startWordPosition ="317" endWordPosition ="317" > s e t o f l i n k a g e s among a d e f i n e d s e t o f persons with t h e a d d i t i o n a l p r o p e r t y t h a t t h e c h a r a c t e r i s t i c s o f t h e s e l i n k a g e s as a whole may be used t o i n t e r p r e t t h e s o c i a l behaviour o f t h e persons involved ’ [ 2 ] . By extending M i t c h e l l ’ s i n t e r p r e t a t i o n o f a s o c i a l network , we g e t a more g e n e r i c d e f i n i t i o n o f s o c i a l networks . S o c i a l networks r e p r e s e n t s o c i a l s t r u c t u r e s by means o f t i e s between nodes . These node</ c o n t e x t > </ c o n t e x t s > <marker >[2] </ marker> <rawString > J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press , 1969. </ rawString > </ c i t a t i o n > [...] < c i t a t i o n v a l i d =" t r u e " > <authors > <author > T e c h n o r a t i Inc </author > </authors > < t i t l e > T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on</ t i t l e > <date >2009</ date > <pages >2009−−07</pages > <contexts > <context position ="29725" c i t S t r = " [ 2 1 ] " startWordPosition ="4600" endWordPosition = " 4 6 0 0 " > [ . . . ] < / c o n t e x t > </ c o n t e x t s > <marker >[21] </ marker> <rawString > T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString > </ c i t a t i o n > < c i t a t i o n v a l i d =" f a l s e " > <date >2009</ date > <pages >2009−−07</pages > < i n s t i t u t i o n > U n i v e r s i t y o f Toronto </ i n s t i t u t i o n > <note >Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on</note > <contexts > <context position ="29731" c i t S t r = " [ 2 2 ] " startWordPosition ="4601" endWordPosition = " 4 6 0 1 " > [ . . . ] < / c o n t e x t > </ c o n t e x t s > <marker >[22] </ marker> <rawString > U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString > </ c i t a t i o n > [...] mit dem Tool pdftotext geschehen. Der Parameter -raw wird benötigt, damit die Reihenfolge der Strings im Inhalt erhalten bleibt: pdftotext -raw 2009_CC_AAN.pdf 14
  15. 15. Listing 5: Beipiel einer ParsCit Lernvorgabe <author> CollaborateCom 1982 Programme Committee , </author> < t i t l e > " C a l l f o r paper f o r t h e CollaborateCom 1 9 8 2 , " </ t i t l e > <note> h t t p : //www. c o l l a b o r a t e c o m . org/docs/CollaborateCom82_cfp . pdf </note> < b o o k t i t l e > Proc . 5 th . BCS−FACS Refinement Workshop , </ b o o k t i t l e > <date> 1 9 9 2 . </date> <author> B r a i n f u c k I n c . , </author> < t i t l e > " Brainfuck , " </ t i t l e > <note> h t t p : //www. muppetlabs . com/~breadbox/ b f / , r e t r i e v e d on 1999 − 12 − 31,</note> <volume> 1 ( 1 ) , </volume> <date> December 1 9 9 9 . </date> Einen Eindruck der generierten Textdatei verschafft Listing 3. Wie zu sehen ist, sind die Kopfdaten, der Text und die Referenzen mit den durchschnittlichen kognitiven Fähigkeiten einer realen Person unmittelbar erkennbar. Im Eingabecode sind die ersten beiden Einträge der Referenzliste und, für einen folgenden Vergleich, die Referenzen 21 und 22 aufgeführt. Der tatsächliche Extraktionsvorgang für Referenzen wird mit folgendem Befehl gestartet: citeExtract.pl 2009_CC_AAN.txt > 2009_CC_AAN.xml Die daraufhin generierte Ausgabe für die aufgeführten Referenzen der Eingabe ist in Listing 4 abgebildet. Der XML Code wurde nachträglich eingerückt und drei der Zitat-Kontexte entfernt. Für jedes Zitat werden, sofern gefunden, Autoren, Titel, Datum, Herausgeber, Seiten, Institu- tion, Kommentar, Zitat-Kontext, Zitat-Markierung und der gefundene Eingabe-String ausgegeben. Bei der Ausgabe des ersten Zitates wird der Autor nicht korrekt erkannt. Eine wahrscheinliche Ursache ist, dass dort kein Name einer Person angegeben wurde und zusätzlich eine Jahreszahl verwendet wurde. Dadurch ist möglicherweise auch der zweite Teil des Namens als Bestandteil des Titels erkannt worden. Dem Titel fehlt wiederum die abschließende Jahreszahl. Die Notiz und der Marker wurden erfolgreich erkannt, der fehlende Unterstrich der Notiz ist ein Folgefehler der Umwandlung der PDF-Datei in Reintext. Die Hauptangaben des zweiten Zitats wurden erfolgreich erkannt. Hier wird der Ort der Veröffentlichung zum Herausgeber hinzugefügt, was vernachlässigt werden kann. Das Zitat mit der Nummer 21 wurde in das Beispiel aufgenommen, da es dem Folgezitat ähnelt, welches als nicht valide gekennzeichnet wurde. Bei beiden Zitaten handelt es sich um Webseiten, deren Hinweis auf ihre Sichtung als Seitenzahl interpretiert wurde. Lediglich Marker, Autor und Datum wurden hier erfolgreich erkannt. Diese Art von Zitat ist eine Ausnahme und spielt für die Referenzierung von Publikationen untereinander keine Rolle, da es sich um Webseiten handelt. Der Unterschied zwischen den Va- liditätsangaben lässt sich mit den geparsten Eingaben erklären. Beim Zitat 21 gibt es einen zusätzlichen Zeilenumbruch. Dieser ist eigentlich eine Fehlkonversion aus dem PDF-Format und ist bedingt durch den -raw Parameter. Interessant ist die Tatsache, dass das Zitat 21, mit der eigentlich falschen Eingabe, validiert wird. 4.1.3 Training Basierend auf den fehlerhaften Extraktionen wurde eine Vorgabe für ein Training erstellt. Die Lernvorgabe, dargestellt in Listing 5 ist stark auf eine Verbesserung der gegebenen Zitate ausgelegt. Für das er- ste Zitat wurde lediglich ein anderes Jahr gewählt, ansonsten wurde ein zugeschnittenes Ergebnis vorgegeben. Für die Zitate 21 und 22 wurde die Struktur der Webseitenreferenzen beibehalten. Der Link und die Angabe zum Abruf der Webseite wurden als Notiz vorgegeben. Zusätzlich wurden (versehentlich) verfremdende Angaben eingefügt, diese sollten das Ergebnis jedoch nicht stark verfälschen. Das Ergebnis 15
  16. 16. Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training [...] <citationList> < c i t a t i o n valid=" true "> < a u t h o r s> <author>Programme Committee</author> </ a u t h o r s> < t i t l e > C a l l f o r paper f o r t h e CollaborateCom 2009</ t i t l e > <date>2009</date> < b o o k t i t l e >CollaborateCom09 c f p . pdf</ b o o k t i t l e > <note> h t t p : //www. c o l l a b o r a t e c o m . org/docs</note> <contexts> < c o n t e x t p o s i t i o n = " 1330 " c i t S t r = " [ 1 ] " s t a r t W o r d P o s i t i o n = " 175 " endWordPosition= " 175 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 1 ] </marker> <ra wS t ri n g>CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p : //www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom09 c f p . pdf , 2 0 0 9 . </ra wS t ri n g> </ c i t a t i o n > [...] < c i t a t i o n valid=" true "> < a u t h o r s> <author> T e c h n o r a t i I n c </author> </ a u t h o r s> < t i t l e > T e c h n o r a t i </ t i t l e > <date>2009</date> <note> h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17</note> <contexts> < c o n t e x t p o s i t i o n = " 29725 " c i t S t r = " [ 2 1 ] " s t a r t W o r d P o s i t i o n = " 4600 " endWordPosition= " 4600 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 2 1 ] </marker> <ra wS t ri n g> T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra w St ri n g> </ c i t a t i o n > < c i t a t i o n valid=" true "> < a u t h o r s> <author> U n i v e r s i t y o f Toronto</author> </ a u t h o r s> < t i t l e >Blogscope</ t i t l e > <date>2009</date> <note> h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17</note> <contexts> < c o n t e x t p o s i t i o n = " 29731 " c i t S t r = " [ 2 2 ] " s t a r t W o r d P o s i t i o n = " 4601 " endWordPosition= " 4601 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 2 2 ] </marker> <ra wS t ri n g> U n i v e r s i t y o f Toronto , " Blogscope , " h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra wS t ri ng> </ c i t a t i o n > [...] der erneuten Extraktion (siehe Listing 6) ist besser. Die Referenzen auf Webseiten wurden korrekt erkannt. Beim ersten Zitat scheint die Jahreszahl im Autorenfeld sowie das Leerzeichen in der URL ein Pro- blem darzustellen. Insgesamt ist die Ausgabe jedoch ein zufriedenstel- lendes Ergebnis. 4.2 Weitere Software Die Verwendung von ParsCit scheint ein probates Mittel zur Extrak- tion von Referenzen zu sein. Daher folgt an dieser Stelle eine Liste (siehe Tabelle 1) von Alternativen; auf weitere umfassende Tests wird verzichtet. Tabelle 1: Software zur Extraktion von Referenzen Ansatz Aktualität System Kommentar ParsCit 01.11.2010 Perl, CRF++ FreeCite 16.04.2009 Ruby on Rails, CRF++ Biblio-Citation-Parser 02.09.2004 Perl Mike Jewell ParaTools 05.09.2004 Perl Mike Jewell California 02.07.2008 Python Hidden Markov Digital Library Models 16
  17. 17. 4.3 Herausforderungen Für die weitere Arbeit mit extrahierten Referenzen fallen zwei mögliche Hindernisse ins Auge. Die Extraktion von Kopfdaten von Publikationen scheint angemessen gut zu klappen. Basierend auf diesen Daten kön- nen eindeutige URIs generiert werden, mit denen Veröffentlichungen referenziert werden können. Eine Herausforderung ist die Zuordnung bei nicht korrekt extrahierten Datenfeldern der Referenzen. Dadurch könnten Verweise fehlgeleitet werden. Eine mögliche Teillösung wäre eine Suche nach vorhandenen Publikationen mit gleichem oder ähn- lichen Titel, mit der ein korrektes Matching und eine Korrektur von Relationen im Modell eingeleitet werden könnte. Die zweite Heraus- forderung ist die Live-Generierung von Trainingsdaten. Diese sollten korrekt sein, was bei einer Extraktion nicht der Fall sein muss. Ein Lö- sungsansatz ist die Verwendung von Daten, die z.B. aus vorgegebenen XML-Daten aus sicheren Quellen extrahiert wurden und sich daher für einen Trainingsinput eignen. 4.4 Ansatzpunkte zur weiteren Recherche • ParsCit http://aye.comp.nus.edu.sg/parsCit/ • Conditional Random Field http://crfpp.sourceforge.net/ http://de.wikipedia.org/wiki/Conditional_Random_Field http://de.wikipedia.org/wiki/Web_Services_Description_Language • FreeCite http://freecite.library.brown.edu/ • Biblio-Citation-Parser http://search.cpan.org/~mjewell/ • ParaTools http://paracite.eprints.org/developers/ • California Digital Library http://gales.cdlib.org/~egh/hmm-citation-extractor/ 5 szientometrie, bibliometrie und zitationsanalyse Szientometrie (Scientometrics), Bibliometrie (Bibliometrics) und Zita- tionsanalyse (Citation analysis). Mehrautorenschaft (Co-authorship), Kopplung von Kozitationen (Co-citation Coupling) und Bibliografische Kopplung (Bibliographic Coupling). h-Index und g-Index? Dies wirkt wie ein Gewitter von Begriffen, die irgendwie mit Zitaten und deren Analyse zusammenhängen. Dieser Abschnitt soll wichtige Begriffe und deren Bedeutung im Kontext von Zitierungen innerhalb von wis- senschaftlichen Publikationen klären. Dazu werden zunächst Oberbe- griffe erläutert und anschließend verschiedene Metriken der Zitations- analyse vorgestellt. Das heißt, dass durch eine Analyse der Verweise verschiedener Publikationen bestimmte Aussagen über eine Zusam- mengehörigkeit gemacht werden. Es gibt auch Ansätze, die versuchen, über die Menge der Veröffentlichungen eines Autors und deren Zi- tierungen in anderen Veröffentlichungen (der Zitierrate) Aussagen über den Status des Autors zu machen. Dies bildet den Abschluss dieses Abschnitts. 5.1 Begriffsklärung • Die Szientometrie ist eine quantitative Methode und untersucht das wissenschaftliche Forschen. Es soll unter anderem die Frage beantwortet werden, wie und warum sich ein bestimmter Wis- senschaftsbereich entwickelt. Ein oft verwendetes Werkzeug ist die Bibliometrie. 17
  18. 18. • Die Bibliometrie ist die quantitative Untersuchung von Publikatio- nen, Autoren und Institutionen wie Bibliotheken mittels statistis- cher Verfahren. Neben der Inhaltsanalyse ist ein weiteres Gebiet die Zitationsanalyse. • Die Zitationsanalyse beschäftigt sich im Wesentlichen mit Be- ziehungen zwischen zitierten und zitierenden Arbeiten, also mit dem Studium von Zitationen. 5.2 Zitationsanalyse In der Zitationsanalyse werden verschiedene Zusammenhänge von Autoren und deren Veröffentlichungen geschlossen. Als Indikator dient oft die Anzahl von Zitierungen. An dieser Stelle werden die Metriken Co-authorship, Co-citation Coupling und Bibliographic Coupling beschrieben. 5.2.1 Co-authorship (Mehrautorenschaft) Eine Mehrautorenschaft bezeichnet die Verfassung eines Dokuments, an der mehrere Mitautoren beteiligt sind. Durch das Zählen gemein- sam erstellter Dokumente kann man den Grad der Zusammenarbeit zweier oder mehrerer Autoren quantitativ ermitteln. Je mehr gemein- same Dokumente eine Menge von Autoren zusammen verfasst hat, desto höher ist der Grad ihrer Zusammenarbeit. In Abbildung 5 ist ein Beispiel dreier Publikationen gegeben. Die Autoren A, B, C und D waren an der Erstellung von Dokumenten beteiligt. A B A C D A B D Publikation Autor Abbildung 5: Beispiel Co-authorship In Tabelle 2 ist eine paarweise Auswertung des Beispiels angegeben. Die Autoren A,B und A,D haben hiernach am meisten zusammen gearbeitet, die Autoren B,C scheinen noch keine gemeinsame Arbeit veröffentlicht zu haben. Tabelle 2: Auswertung des Beispiels Co-authorship CA(A,B) CA(A,C) CA(A,D) CA(B,C) CA(B,D) CA(C,D) 2 1 2 0 1 1 Dieses Beispiel ist sehr simpel gehalten. Bei einer großen Daten- basis mit hunderten oder tausenden von Publikationen liefert dieses Verfahren aber für die Praxis hilfreiche Ergebnisse. Gerade im Gebiet Recommendations oder bei der Expertenfindung sind Mitautoren inter- essant. Eine Visualisierung der für den Workshop LWA2010 [1] angenom- menen Artikeln zeigt Abbildung 6. Auch dies ist ein einfaches Beispiel. Da jeder Autor an lediglich einer Arbeit beteiligt war, sind klar trennbare Cliquen zu erkennen. So ist zum Beispiel auf den ersten Blick sicht- bar, dass die Autoren Daniela Godoy und Dominikus Heckmann die einzigen beiden Personen sind, die eine Publikation ohne Mitautoren eingereicht haben. Aber auch nur auf den ersten Blick, denn Daniel Burgos hat sowohl eine Publikation alleine, als auch eine zweite Pub- likation mit einem Mitautor eingereicht. So erklären sich auch die 11 18
  19. 19. Abbildung 6: Co-authorship für LWA2010, Quelle: [12] Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaft bezieht sich auf Autoren, im Gegensatz dazu bezieht sich die nächste Metrik auf Zitationen. 5.2.2 Co-citation Coupling (Kopplung von Kozitationen) Durch den Ansatz der Kopplung von Kozitationen wird versucht, the- matisch verwandte Inhalte von Publikationen zu erkennen. Dazu wird die Anzahl gemeinsamer Zitationen innerhalb weiterer Publikationen ermittelt. Wenn also zwei Publikationen A und B in einer Publikation C referenziert werden, nimmt man an, dass deren Themen verwandt sind. Auch, wenn A und B nicht gegenseitig auf sich verweisen. Je mehr solche gemeinsame Zitationen gefunden werden, desto stärker scheint ihre Beziehung zu sein. Abbildung 7 zeigt ein Beispiel mit drei Publikationen 1 bis 3. Diese Publikationen referenzieren fünf weitere Veröffentlichungen A bis E. Welche der Veröffentlichungen A bis E sind nach dem Co-citation Coupling am stärksten thematisch verwandt? Abbildung 7: Beispiel Co-citation Coupling Tabelle 3 zeigt eine Auswertung des Beispiels. Die Publikationen A,B und A,D wurden beide zweimalig gemeinsam referenziert und scheinen somit am stärksten thematisch verwandt zu sein. In Abbildung 8 ist ein weiteres Beispiel einer Visualisierung des LWA2010 Workshops gegeben. Die erkennbaren Cluster sind von den Workshop-Beiträgen referenzierte Dokumente. Die Bildung der Clus- 19
  20. 20. Tabelle 3: Auswertung des Beispiels Co-Citation Coupling CCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C) 2 1 2 1 1 CCC(B,D) CCC(B,E) CCC(C,D) CCC(C,E) CCC(D,E) 1 0 0 0 1 ter kommt daher, dass alle Dokumente, die gemeinsam durch einen LWA2010-Beitrag referenziert wurden, durch eben diese Kozitation gekoppelt werden. Vier Knoten stechen heraus. Diese vier Knoten wur- den in jeweils zwei Workshop-Beiträgen referenziert und weisen daher jeweils eine thematische Verwandtschaft zu zwei Clustern auf. Abbildung 8: Co-citation Coupling für LWA2010, Quelle: [12] Die Kopplung von Kozitationen bietet sich für ältere Arbeiten an und kann sich im Lauf der Zeit verändern, was aber ist mit ganz neuen Veröffentlichungen, auf die wegen ihres Alters noch nicht verwiesen werden kann? Dazu eignet sich die folgende Metrik. 5.2.3 Bibliographic Coupling (Bibliografische Kopplung) Die bibliografische Kopplung verfährt auf einem ganz ähnlichen Weg. Allerdings in umgekehrter Weise. Wenn zwei Publikationen A und B eine weiteres Dokument C referenzieren, dann sind A und B nach dieser Metrik miteinander thematisch verwandt. Das Bibliographic Coupling bietet sich auch für jüngere Arbeiten an, da nicht auf diese selber verwiesen werden muss. In Abbildung 9 ist das bereits bekannte Beispiel nochmals aufgeführt. Drei Publikationen 1 bis 3 verweisen auf fünf weitere Publikationen A bis E. Welche der Publikationen 1 bis 3 haben nach der hier vorgestellten Metrik die am stärksten ausgeprägte thematische Ähnlichkeit? In Tabelle 4 ist eine Auswertung des Beispiels gegeben. Die Publika- tionen 1,2 und 2,3 haben jeweils zwei gleiche Zitierungen. Das sind A und B im ersten Fall und A und D im zweiten Fall. 20
  21. 21. Abbildung 9: Beispiel Bibliographic Coupling Tabelle 4: Auswertung des Beispiels Bibliographic Coupling BC(1,2) BC(1,3) BC(2,3) 2 1 2 In Abbildung 10 ist auch für das Bibliographic Coupling ein LWA2010 Beispiel zu sehen. Die 12 Knoten entsprechen den 12 eingereichten Beiträgen. Acht der Beiträge weisen keine Ähnlichkeit mit anderen Beiträgen auf. Bei vier Einreichungen ist eine Ähnlichkeit erkennbar. Insbesondere bei „What is wrong with the IMS Learning Design spe- cification?“ und „On the Role of Social Tags in Filtering Interesting Resources from Folksonomies“ sind jeweils zwei ähnliche Dokumente erkennbar. Zusätzlich zu den hier vorgestellten Zusammenhängen von Autoren und Veröffentlichungen gibt es Maße, mit denen die Produktivität von Autoren verglichen werden kann, sogenannte bibliometrische Maße. Abbildung 10: Bibliographic Coupling für LWA2010, Quelle: [12] 5.3 Bibliometrisches Maße In diesem Abschnitt werden die relativ neuen (2005, 2006) Konzepte h-Index und g-Index vorgestellt. Es existieren noch weitere biblio- metrische Maße, dieser Abschnitt beschränkt sich auf die beiden bekan- ntesten. 5.3.1 h-Index (Hirsch-Index) Der Hirsch-Index (auch Hirschfaktor) wurde im November 2005 vom amerikanischen Physik Jorge E. Hirsch [7] veröffentlicht. Er ist ein Maß für die Produktivität und den Einfluss eines Autors. Zur Berechnung des h-Index werden die Publikationen eines Autors nach der Anzahl ihrer Zitierungen absteigend geordnet. Diese Liste geht man nun von vorne durch und vergleicht den Index der Publikation mit ihrer Anzahl an Zitierungen. Sobald die h-te Publikation weniger als h Zitierungen 21
  22. 22. hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmung des h-Index bildlich. Abbildung 11: h-Index, Quelle: http://de.wikipedia.org/wiki/H-Index Der Hirschfaktor berücksichtigt keine besonders hervorstechenden Publikationen. So könnte ein Autor wenige Artikel mit sehr vielen Zitierungen veröffentlicht haben. Dies könnte eine herausragende Leis- tung darstellen, die im h-Index nicht berücksichtigt würde, wenn die übrigen Arbeiten des Autors nur sehr wenige Zitierungen hätten. Durch den g-Index wird versucht dies auszugleichen. 5.3.2 g-Index Der g-Index wurde 2006 von Leo Egghe in der Zeitschrift Scientomet- rics [5] veröffentlicht. Zur Bestimmung des Index werden die Veröf- fentlichungen eines Autors ebenfalls nach der Anzahl ihrer Zitationen absteigend sortiert. Nun wird die Summe der Zitierungen der ersten bis zur g-ten Publikation berechnet und mit dem Produkt g·g verglichen. Der g-Index ist die Zahl, bei der die Summe der Zitierungen mindestens so groß ist, wie das Produkt g·g. Tabelle 5: Beispiel zum g-Index Artikel (g) Zitierungen Summe Zitierungen g·g 1 20 20 1 2 10 30 4 3 7 37 9 4 5 42 16 5 3 45 25 6 2 47 36 7 1 48 49 Ein Beispiel zur Bestimmung des g-Indexes ist in Tabelle 5 gegeben. Die Tabelle gibt die sieben meist-zitierten Publikationen eines fiktiven Autors wieder. Bis zur 6. Publikation ist die Summe der Zitierungen mindestens so groß wie das Quadrat des Indexes. Da dies bei der 7. meist-zitierten Veröffentlichung nicht mehr zutrifft, ist der g-Index 6. Die hier vorgestellten Metriken und Maße fußen auf Zitationen. Diese können als semantische Relationen zwischen Artefakten interpretiert werden. Somit sind die Konzepte teilweise auch auf andere Artefakt- Typen erweitert werden. Im Folgenden wird zusätzlich ein Vorschlag für eine zusätzliche Bewertung für Artefakte vorgestellt. 22
  23. 23. 5.4 Bewertungen basierend auf semantischen Relationen Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten im AAN System über die SemSim Komponente bestimmt. Basis dieser Berechnung bilden die Inhalte der Artefakte, genauer gesagt die Stich- wörter (Tags und Kategorien), mit denen sie verbunden sind. Ein weit- erer Ansatz ist die quantitative Auswertung der Anzahl von Art2 Re- lationen. Die Verwendung von gegenseitigen Referenzierungen als Rückschluss auf eine inhaltliche Ähnlichkeit wird auch in der Zitation- sanalyse gebraucht. Hierfür sollten lediglich eingehende Relationen betrachtet werden. Da in der AAN Ontologie für jede Relation ein Inverses definiert ist, der entstehende Graph also bidirektional ist, entsprechen zwei Kanten eines Artefakt-Knotens einer Relation. Ein erster Ansatz wäre also, die mit einem Artefakt verbundenen Art2 Re- lationen zu zählen und diese Summe zu halbieren. Möglicherweise ist es sinnvoll, Relationen wie isPartOf oder hasPart auszuschließen, um Verfälschungen des Ergebnisses zu vermeiden. Ein Artefakt, dass von einer hohen Anzahl von anderen Artefakten referenziert wird, könnte zusätzlich eine höhere Wertung bekommen. So wäre es denkbar, dass Relationen, die von einem solchen hochfre- quentierten Artefakt ausgehen, höher gewertet werden, als Relationen von einem wenig verbundenen Artefakt. Dieser Ansatz könnte itera- tiv fortgeführt werden, so dass Relationen von einem Artefakt, dass mit einem hoch frequentieren Artefakt verbunden ist, ebenfalls aufge- wertet werden. Dieser Ansatz ist in einer Variation bereits als PageRank bekannt. Außerdem könnten solche Relationen als weitere Beschreibung von Artefakten verwendet werden. Stichworte von direkt verbundenen Arte- fakten könnten als Stichworte zweiter Klasse dienen. Ob und welchen Mehrwert eine solche Weitergabe ergibt, muss in der Praxis evaluiert werden. Im Folgenden ist eine Sammlung von Webseiten aufgeführt, die für eine weitere Recherche im Gebiet Bibliometrie nützlich sein können. 5.5 Ansatzpunkte zur weiteren Recherche • Zitationsanalyse http://www.ischool.utexas.edu/~palmquis/courses/biblio.html#Cite http://www.harzing.com/pophelp/metrics.htm • Wikipedia (de) http://de.wikipedia.org/wiki/Szientometrie http://de.wikipedia.org/wiki/Bibliometrie http://de.wikipedia.org/wiki/Zitationsanalyse http://de.wikipedia.org/wiki/Mehrautorenschaft http://de.wikipedia.org/wiki/Kozitation http://de.wikipedia.org/wiki/Bibliografische_Kopplung http://de.wikipedia.org/wiki/H-Index • Wikipedia (en) http://en.wikipedia.org/wiki/Scientometrics http://en.wikipedia.org/wiki/Bibliometrics http://en.wikipedia.org/wiki/Citation_analysis http://en.wikipedia.org/wiki/H-index http://en.wikipedia.org/wiki/G-index 23
  24. 24. 6 zusammenfassung Die vorgestellten Informationen sollen einen Einstieg der Integration von Publikationsdaten in das AAN System erleichtern. Dazu wurde ein kompletter Einblick des Ablaufs der wichtigsten Bereiche gegeben. Dies umfasst potenzielle Quellen, Möglichkeiten der Übertragung, An- sätze zur Extraktion von Daten und Grundlagen für die abschließende Analyse von wissenschaftlichen Dokumenten. Wichtig für die weitere Entwicklung ist die Betrachtung kommender Herausforderungen (siehe Abschnitt 2.3.3 und 4.3), für die bereits Vorschläge zur Bewältigung gegeben wurden. literatur [1] ABIS. LWA2010 - Lernen, Wissen, Adaptivität. http://www.kde. cs.uni-kassel.de/conf/lwa10/abis. zugegriffen am 5. Januar 2011. [2] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender, Turid Hedlund, and Guðni Guðnason. Open Access to the Sci- entific Journal Literature: Situation 2009. PLoS ONE, 5(6), 2010. http://dx.doi.org/10.1371%2Fjournal.pone.0011273. [3] Budapest Open Access Initiative. What does BOAI mean by ’open access’? http://www.earlham.edu/~peters/fos/boaifaq.htm# openaccess. zugegriffen am 15. Dezember 2010. [4] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. Parscit: An open- source crf reference string parsing package. In Proceedings of the Language Resources and Evaluation Conference (LREC 08), Marrakesh, Morrocco, May 2008. [5] Leo Egghe. Theory and practise of the g-index. Scientometrics, 69(1):131–152, April 2006. [6] Yassine Gargouri, Chawki Hajjem, Vincent Larivière, Yves Gingras, Les Carr, Tim Brody, and Stevan Harnad. Self-Selected or Man- dated, Open Access Increases Citation Impact for Higher Quality Research. PLoS ONE, 5(10), 2010. http://dx.doi.org/10.1371% 2Fjournal.pone.0013636. [7] J. E. Hirsch. An index to quantify an individual’s scientific research output. PNAS, 102(46), November 2005. [8] Lund University Libraries. Directory of Open Access Journals. http://www.doaj.org/. zugegriffen am 03. Januar 2011. [9] Wolfgang Reinhardt, Matthias Moi, , and Tobias Varlemann. Artefact-actor-networks as tie between social networks and artefact networks. In Proceedings of the CollaborateCom 2009. [10] UNESCO, Adobe Systems Inc., and NDLTD members. NDLTD: Networked Digital Library of Theses and Dissertations. http: //www.ndltd.org/. zugegriffen am 03. Januar 2011. [11] Universitätsbibliothek Regensburg. Informationen zur Elektron- ischen Zeitschriftenbibliothek. http://ezb.uni-regensburg.de/ about.phtml. zugegriffen am 16. Dezember 2010. [12] Wolfgang Reinhardt. ABIS2010 Small-scale study. http://thales. cs.upb.de/smallscalestudies/abis2010/bibliometrics.html. zugegriffen am 5. Januar 2011. 24

×