Vortrag bei der Weiterbildungsveranstaltung "Integrated Search" des Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung, Köln, 09.05.2011
Vortrag bei der Weiterbildungsveranstaltung "Integrated Search" des Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung, Köln, 09.05.2011
Christian Groh (International Tracing Service – ITS, DE): Unterlagen der NS-Gewaltherrschaft und der unmittelbaren Nachkriegszeit
co:op-READ-Convention Marburg
Technology meets Scholarship, or how Handwritten Text Recognition will Revolutionize Access to Archival Collections.
With a special focus on biographical data in archives
Hessian State Archives Marburg Friedrichsplatz 15, D - 35037 Marburg
19-21 January 2016
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Felix Lohmeier
Im Juli 2015 wurde der neue Bibliothekskatalog der SLUB Dresden freigeschaltet. Nach nur drei Monaten Entwicklungszeit konnte auf Basis von einer an der SUB Göttingen entwickelten und von der SLUB Dresden angepassten TYPO3-Erweiterung „Find“ eine moderne, vollständig quelloffene Rechercheoberfläche unter http://katalogbeta.slub-dresden.de veröffentlicht werden. Das Hauptargument für die Eigenentwicklung war die Unzufriedenheit mit der Rückschrittlichkeit kommerzieller Discovery-Lösungen sowie die fehlende Modularität von bestehenden Open-Source-Alternativen wie VuFind. Mit der jetzt geschaffenen Lösung erhält die SLUB Dresden die Möglichkeit schnell auf Wünsche der NutzerInnen zu reagieren. Die ersten Rückmeldungen bestätigen diesen Ansatz. Bis September 2015 sind mehr als 100 konstruktive Entwicklungswünsche eingegangen, von denen bereits mehr als die Hälfte umgesetzt werden konnte. Die Entwicklung steht zur Nachnutzung an anderen Bibliotheken zur Verfügung und ist auch für andere Rechercheoberflächen (wie z.B. digitale Sammlungen) universell einsetzbar. Voraussetzung für die Nutzung der Rechercheoberfläche ist ein Werkzeug für die Datenintegration. Das an der SLUB eingesetzte Discovery-System besteht aus drei quelloffenen Komponenten:
Die an der UB Leipzig im Rahmen eines EFRE-Projektes geschaffene Datenmanagement-Infrastruktur finc
Die an der SLUB Dresden im Rahmen von EFRE-Projekten entwickelten Datenmanagement-Werkzeuge D:SWARM und Tiefenerschließung
Die oben beschriebene Lösung auf Basis von TYPO3 Find
Zusammen entsprechen diese drei Komponenten dem Funktionsumfang von gängigen Discovery-Systemen, wie beispielsweise PRIMO von Ex Libris oder Summon von ProQuest. Die Systemarchitektur ist modular aufgebaut, so dass die Komponenten auch unabhängig voneinander eingesetzt werden können. Im Vortrag wird die dritte Komponente, sowie die zugrunde liegende Discovery-Strategie ausführlicher vorgestellt.
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...Felix Lohmeier
Vortrag auf dem Bibliothekskongress 2013 in Leipzig
Abstract 303
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler Augenhöhe unterstützen
R. David Lankes hat dieses Jahr mit der These provoziert, dass schlechte Bibliotheken Sammlungen, gute Bibliotheken Dienstleistungen und großartige Bibliotheken Communities aufbauen. Für die aktive Gestaltung des Medienwandels gewinnt Community Building in vielfältigen Ausprägungen an Bedeutung: Eine aktive Nutzerschaft hilft bei der Erwerbung (Patron Driven Acquisition), bei der Erschließung (Crowdsourcing) und in der Benutzung (Selbstbedienung). Wissenschaftliche Bibliotheken haben im wörtlichen Sinne "von Haus aus“ eine Community: Täglich tausende Besucher sind die beste Basis, um auch virtuell eine Gemeinschaft zu begründen.
An manchen Universitäten, vornehmlich an Eliteunis in den USA, sind campusinterne Facebooks entstanden. Gleichzeitig entwickeln sich die klassischen Forschungsinformationssysteme zaghaft in Richtung Social Web. Damit entstehen virtuelle Campus Communities, die Bibliotheken nutzen können, um den Kontakt zwischen Fachreferaten und der Universität neu zu beleben. Fachreferentinnen und Fachreferenten können sich in den lokalen Forschungsdiskurs einschalten und auf einem zeitgemäßen Kanal bibliothekarisches Wissen und moderne Konzepte wie Open Access und Open Data verbreiten.
Gleichzeitig besitzen Bibliotheken mittlerweile das nötige IT-Know-How, um sich als Betreiber der technischen Plattform für die Campus Community zu positionieren. So können andere Dienste (Dokumentenserver, E-Learning, Katalog) verknüpft und direkt in die Arbeitsumgebung der Forschenden integriert werden. Die klassische Meldestelle für Hochschulpublikationen kann entfallen, wenn Forschende ihre Publikationen auf der Campus-Community-Plattform selbst einstellen. Stets aktuelle Verweise auf Forschungsschwerpunkte können genutzt werden, um die Erwerbung besser am tatsächlichen Bedarf auszurichten. Perspektivisch kann damit auch die Abhängigkeit von kommerziellen Anbietern bibliografischer Daten reduziert werden.
Hinzugefügte Sprecher:
Felix Lohmeier , SLUB Dresden , Dresden , Germany
Verknüpft in Sitzungen:
13.03.2013, 16:00-18:00, Zielgruppenerwartungen und Dienstleistungen, Nutzungsorientierte Bestandsprofilierung, Seminarraum 6/7
Rechte an Daten und Metadaten. Erfahrungen aus dem Projekt Europeana regiaschassan
Impulsreferat, gehalten am 11.5.2015 in Göttingen, anläßlich des DARIAH-DE Workshops "Store it, share it, use it. Lizenzierung digitaler Forschungsdaten in den Sprach- und Literaturwissenschaften" (https://de.dariah.eu/lizenzierungsworkshop)
Digitale Editionsprojekte mit Werkzeugen unterstützen und en passant dieNachnutzbarkeit der Forschungsdaten fördern: Das Beispiel TextGrid
TextGrid is designed for researchers who require tools and services for the
description, annotation, indexing, analysis, and publication of cultural
artifacts, particularly texts, images, manuscripts, musical score, and other
objects, and who place value on long-term data curation and ensuring the
reusability of research data. TextGrid is a research group consisting of ten
project partners and has been funded since February 2006 by the German
Federal Ministry for Education and Research. Since the release of TextGrid
version 1.0 in July 2011, the Virtual Research Environment is primarily used
by projects creating digital editions in philology, the history of science,
and musicology.
In this presentation in the session "Virtual Research Environments,"
TextGrid's specific organizational and technical approach, in contrast to
other concepts for Virtual Research Environments, will be presented. TextGrid
is developing a complete solution for the entire research process in digital
edition projects. TextGrid provides two closely linked components: a desktop
software with research tools and a repository for research data. In the
integrated work environment, researchers will have direct access to help
functions and tools for metadata encoding and for long-term preservation,
with the aim of ensuring the long-term availability and accessibility of
research data. Using the example of various publishing projects that already
use TextGrid in their research, the advantages and disadvantages of the
TextGrid approach will be discussed.
The Lower Saxony State and University Library, Goettingen, is leading the
project. As an academic library, it sees as its task to work together with
scholarly disciplines to develop services to support the research process and
to promote the use of digital methods.
Der Ausbau einer leistungsfähigen, effizienten und innovativen Informationsinfrastruktur ist Voraussetzung für den Erfolg der wissenschaftlichen Einrichtungen des Landes im nationalen und internationalen Wettbewerb, für Spitzenforschung und Exzellenz
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenGeorg Vogeler
Vortrag auf der DHd2019: https://dhd2019.org/programm/do/1100-1230/session-datenmodelle-und-schnittstellen/vortrag-269/
Der Beitrag stellt einen Vorschlag vor, mit dem der Datenaustausch über Personen jenseits allgemeiner Linked Open Data-Lösungen verbessert werden kann. Aufbauend auf dem von Bradley/Short entwickelten Factoid-Datenmodell, bezieht er sichauf technische Lösungen zur Definition von RESTful APIs (OpenAPI) und dem Einsatz einer Upper Level Ontologie des CIDOC-CRM, wie er in der dataforhistory-Initiative propagiert wird.
Der Beitrag beschreibt die API-Definition, ordnet sie in die Geschichte der digitalen Prosopographie ein und skizziert Implementationen auf der Seite Datenanbieter wie der der Datenkonsumenten.
Leitbild Openness - Bibliotheken als Wächter für den (dauerhaft) freien Zugan...Felix Lohmeier
Wozu brauchen wir noch wissenschaftliche Bibliotheken, wenn alle Forschungsergebnisse kostenfrei und öffentlich verfügbar sind (100% Open Access), zu allen Forschungsthemen kostenfreie Kurse der Ivy League abrufbar sind (100% MOOCs) und mir Peers in akademischen Communities zu allen Spezialfragen sofort weiterhelfen (100% Follower-Power)? In aktuellen Debatten zur Perspektive von (wissenschaftlichen) Bibliotheken verweisen die meisten Strategien auf die Bibliothek als Raum und Treffpunkt, neue Multimedia-Angebote und neue Aufgaben im Forschungsdatenmanagement. Das reicht als kurzfristige Überlebensstrategie, folgt aber keiner größeren Vision für die zukünftige Rolle von Bibliotheken. Dabei ist spätestens mit dem "Ende der Gratiskultur", welche die Medienkonzerne 2010 eingeläutet haben, und der Erkenntnis, dass ein Weltkonzern wie Google dem Motto "Don't be evil" nicht gerecht werden kann, das Spielfeld für Bibliotheken im Internet ganz neu eröffnet. Es zeigt die tiefe Resignation der Bibliotheksbranche, wenn Oligopole für Wissenschaftsevaluation (Impact Factor), Preisdiktate von großen Zeitschriftenverlagen, DRM-Einschränkungen bei eBooks und langfristige Abhängigkeiten von kommerziellen Bibliotheksdienstleistern hingenommen werden. Der freie Zugang zum Wissen unterliegt ständigen Gefährdungen und Bedrohungen, die von Marktinteressen und Nutzerdesinteresse ausgehen. Funktioniert der Markt nach den Prinzipien der Openness (wofür es durchaus wirtschaftliche Anreize gibt), sollten Bibliotheken nicht im Wege stehen. Ist jedoch die Openness der Angebote gefährdet, lohnt es einzugreifen und selbst Dienste aufzubauen, bis die Openness wiederhergestellt ist. Daher plädiere ich in diesem Vortrag für eine Positionierung der Bibliotheken als Wächter für den (dauerhaft) freien Zugang zum Wissen. Angewandt auf die heutige Zeit erfordert dies eine konsequente Ausrichtung des eigenen Handelns an den Prinzipien von Open Science und Open Data.
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...intranda GmbH
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Datenerschließung - Vortrag von Tobias Helms auf den Goobi Tagen 2017 über das Zusammenspiel verschiedener Normdatenbanken und Goobi
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt WienBernhard Krabina
Semantic MediaWiki hat das Potenzial, ein ideales Tool für OpenGLAM-Projekte (Galleries, Libraries, Archives, Museums) zu werden.
Gezeigt wird dies am Beispiel des historischen Lexikons der Stadt Wien, das 2014 veröffentlicht wird. Präsentation anlässlich des OpenGLAM-Auftaktes von OKFN.at
Fit für Web 3.0 - Semantische TechnologienUrsulaDeriu
Das Web 3.0 wird eine gigantische Datenbank: Die Web-Inhalte sollen von Computern „verstanden“ werden, massenweise Rohdaten sollen im Internet zugänglich werden. Ziel ist es, diese Daten automatisch zu verknüpfen und so neue Informationen zu generieren, welche die Endanwender bei ihren Entscheidungen unterstützen.
Christian Groh (International Tracing Service – ITS, DE): Unterlagen der NS-Gewaltherrschaft und der unmittelbaren Nachkriegszeit
co:op-READ-Convention Marburg
Technology meets Scholarship, or how Handwritten Text Recognition will Revolutionize Access to Archival Collections.
With a special focus on biographical data in archives
Hessian State Archives Marburg Friedrichsplatz 15, D - 35037 Marburg
19-21 January 2016
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Felix Lohmeier
Im Juli 2015 wurde der neue Bibliothekskatalog der SLUB Dresden freigeschaltet. Nach nur drei Monaten Entwicklungszeit konnte auf Basis von einer an der SUB Göttingen entwickelten und von der SLUB Dresden angepassten TYPO3-Erweiterung „Find“ eine moderne, vollständig quelloffene Rechercheoberfläche unter http://katalogbeta.slub-dresden.de veröffentlicht werden. Das Hauptargument für die Eigenentwicklung war die Unzufriedenheit mit der Rückschrittlichkeit kommerzieller Discovery-Lösungen sowie die fehlende Modularität von bestehenden Open-Source-Alternativen wie VuFind. Mit der jetzt geschaffenen Lösung erhält die SLUB Dresden die Möglichkeit schnell auf Wünsche der NutzerInnen zu reagieren. Die ersten Rückmeldungen bestätigen diesen Ansatz. Bis September 2015 sind mehr als 100 konstruktive Entwicklungswünsche eingegangen, von denen bereits mehr als die Hälfte umgesetzt werden konnte. Die Entwicklung steht zur Nachnutzung an anderen Bibliotheken zur Verfügung und ist auch für andere Rechercheoberflächen (wie z.B. digitale Sammlungen) universell einsetzbar. Voraussetzung für die Nutzung der Rechercheoberfläche ist ein Werkzeug für die Datenintegration. Das an der SLUB eingesetzte Discovery-System besteht aus drei quelloffenen Komponenten:
Die an der UB Leipzig im Rahmen eines EFRE-Projektes geschaffene Datenmanagement-Infrastruktur finc
Die an der SLUB Dresden im Rahmen von EFRE-Projekten entwickelten Datenmanagement-Werkzeuge D:SWARM und Tiefenerschließung
Die oben beschriebene Lösung auf Basis von TYPO3 Find
Zusammen entsprechen diese drei Komponenten dem Funktionsumfang von gängigen Discovery-Systemen, wie beispielsweise PRIMO von Ex Libris oder Summon von ProQuest. Die Systemarchitektur ist modular aufgebaut, so dass die Komponenten auch unabhängig voneinander eingesetzt werden können. Im Vortrag wird die dritte Komponente, sowie die zugrunde liegende Discovery-Strategie ausführlicher vorgestellt.
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...Felix Lohmeier
Vortrag auf dem Bibliothekskongress 2013 in Leipzig
Abstract 303
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler Augenhöhe unterstützen
R. David Lankes hat dieses Jahr mit der These provoziert, dass schlechte Bibliotheken Sammlungen, gute Bibliotheken Dienstleistungen und großartige Bibliotheken Communities aufbauen. Für die aktive Gestaltung des Medienwandels gewinnt Community Building in vielfältigen Ausprägungen an Bedeutung: Eine aktive Nutzerschaft hilft bei der Erwerbung (Patron Driven Acquisition), bei der Erschließung (Crowdsourcing) und in der Benutzung (Selbstbedienung). Wissenschaftliche Bibliotheken haben im wörtlichen Sinne "von Haus aus“ eine Community: Täglich tausende Besucher sind die beste Basis, um auch virtuell eine Gemeinschaft zu begründen.
An manchen Universitäten, vornehmlich an Eliteunis in den USA, sind campusinterne Facebooks entstanden. Gleichzeitig entwickeln sich die klassischen Forschungsinformationssysteme zaghaft in Richtung Social Web. Damit entstehen virtuelle Campus Communities, die Bibliotheken nutzen können, um den Kontakt zwischen Fachreferaten und der Universität neu zu beleben. Fachreferentinnen und Fachreferenten können sich in den lokalen Forschungsdiskurs einschalten und auf einem zeitgemäßen Kanal bibliothekarisches Wissen und moderne Konzepte wie Open Access und Open Data verbreiten.
Gleichzeitig besitzen Bibliotheken mittlerweile das nötige IT-Know-How, um sich als Betreiber der technischen Plattform für die Campus Community zu positionieren. So können andere Dienste (Dokumentenserver, E-Learning, Katalog) verknüpft und direkt in die Arbeitsumgebung der Forschenden integriert werden. Die klassische Meldestelle für Hochschulpublikationen kann entfallen, wenn Forschende ihre Publikationen auf der Campus-Community-Plattform selbst einstellen. Stets aktuelle Verweise auf Forschungsschwerpunkte können genutzt werden, um die Erwerbung besser am tatsächlichen Bedarf auszurichten. Perspektivisch kann damit auch die Abhängigkeit von kommerziellen Anbietern bibliografischer Daten reduziert werden.
Hinzugefügte Sprecher:
Felix Lohmeier , SLUB Dresden , Dresden , Germany
Verknüpft in Sitzungen:
13.03.2013, 16:00-18:00, Zielgruppenerwartungen und Dienstleistungen, Nutzungsorientierte Bestandsprofilierung, Seminarraum 6/7
Rechte an Daten und Metadaten. Erfahrungen aus dem Projekt Europeana regiaschassan
Impulsreferat, gehalten am 11.5.2015 in Göttingen, anläßlich des DARIAH-DE Workshops "Store it, share it, use it. Lizenzierung digitaler Forschungsdaten in den Sprach- und Literaturwissenschaften" (https://de.dariah.eu/lizenzierungsworkshop)
Digitale Editionsprojekte mit Werkzeugen unterstützen und en passant dieNachnutzbarkeit der Forschungsdaten fördern: Das Beispiel TextGrid
TextGrid is designed for researchers who require tools and services for the
description, annotation, indexing, analysis, and publication of cultural
artifacts, particularly texts, images, manuscripts, musical score, and other
objects, and who place value on long-term data curation and ensuring the
reusability of research data. TextGrid is a research group consisting of ten
project partners and has been funded since February 2006 by the German
Federal Ministry for Education and Research. Since the release of TextGrid
version 1.0 in July 2011, the Virtual Research Environment is primarily used
by projects creating digital editions in philology, the history of science,
and musicology.
In this presentation in the session "Virtual Research Environments,"
TextGrid's specific organizational and technical approach, in contrast to
other concepts for Virtual Research Environments, will be presented. TextGrid
is developing a complete solution for the entire research process in digital
edition projects. TextGrid provides two closely linked components: a desktop
software with research tools and a repository for research data. In the
integrated work environment, researchers will have direct access to help
functions and tools for metadata encoding and for long-term preservation,
with the aim of ensuring the long-term availability and accessibility of
research data. Using the example of various publishing projects that already
use TextGrid in their research, the advantages and disadvantages of the
TextGrid approach will be discussed.
The Lower Saxony State and University Library, Goettingen, is leading the
project. As an academic library, it sees as its task to work together with
scholarly disciplines to develop services to support the research process and
to promote the use of digital methods.
Der Ausbau einer leistungsfähigen, effizienten und innovativen Informationsinfrastruktur ist Voraussetzung für den Erfolg der wissenschaftlichen Einrichtungen des Landes im nationalen und internationalen Wettbewerb, für Spitzenforschung und Exzellenz
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenGeorg Vogeler
Vortrag auf der DHd2019: https://dhd2019.org/programm/do/1100-1230/session-datenmodelle-und-schnittstellen/vortrag-269/
Der Beitrag stellt einen Vorschlag vor, mit dem der Datenaustausch über Personen jenseits allgemeiner Linked Open Data-Lösungen verbessert werden kann. Aufbauend auf dem von Bradley/Short entwickelten Factoid-Datenmodell, bezieht er sichauf technische Lösungen zur Definition von RESTful APIs (OpenAPI) und dem Einsatz einer Upper Level Ontologie des CIDOC-CRM, wie er in der dataforhistory-Initiative propagiert wird.
Der Beitrag beschreibt die API-Definition, ordnet sie in die Geschichte der digitalen Prosopographie ein und skizziert Implementationen auf der Seite Datenanbieter wie der der Datenkonsumenten.
Leitbild Openness - Bibliotheken als Wächter für den (dauerhaft) freien Zugan...Felix Lohmeier
Wozu brauchen wir noch wissenschaftliche Bibliotheken, wenn alle Forschungsergebnisse kostenfrei und öffentlich verfügbar sind (100% Open Access), zu allen Forschungsthemen kostenfreie Kurse der Ivy League abrufbar sind (100% MOOCs) und mir Peers in akademischen Communities zu allen Spezialfragen sofort weiterhelfen (100% Follower-Power)? In aktuellen Debatten zur Perspektive von (wissenschaftlichen) Bibliotheken verweisen die meisten Strategien auf die Bibliothek als Raum und Treffpunkt, neue Multimedia-Angebote und neue Aufgaben im Forschungsdatenmanagement. Das reicht als kurzfristige Überlebensstrategie, folgt aber keiner größeren Vision für die zukünftige Rolle von Bibliotheken. Dabei ist spätestens mit dem "Ende der Gratiskultur", welche die Medienkonzerne 2010 eingeläutet haben, und der Erkenntnis, dass ein Weltkonzern wie Google dem Motto "Don't be evil" nicht gerecht werden kann, das Spielfeld für Bibliotheken im Internet ganz neu eröffnet. Es zeigt die tiefe Resignation der Bibliotheksbranche, wenn Oligopole für Wissenschaftsevaluation (Impact Factor), Preisdiktate von großen Zeitschriftenverlagen, DRM-Einschränkungen bei eBooks und langfristige Abhängigkeiten von kommerziellen Bibliotheksdienstleistern hingenommen werden. Der freie Zugang zum Wissen unterliegt ständigen Gefährdungen und Bedrohungen, die von Marktinteressen und Nutzerdesinteresse ausgehen. Funktioniert der Markt nach den Prinzipien der Openness (wofür es durchaus wirtschaftliche Anreize gibt), sollten Bibliotheken nicht im Wege stehen. Ist jedoch die Openness der Angebote gefährdet, lohnt es einzugreifen und selbst Dienste aufzubauen, bis die Openness wiederhergestellt ist. Daher plädiere ich in diesem Vortrag für eine Positionierung der Bibliotheken als Wächter für den (dauerhaft) freien Zugang zum Wissen. Angewandt auf die heutige Zeit erfordert dies eine konsequente Ausrichtung des eigenen Handelns an den Prinzipien von Open Science und Open Data.
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...intranda GmbH
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Datenerschließung - Vortrag von Tobias Helms auf den Goobi Tagen 2017 über das Zusammenspiel verschiedener Normdatenbanken und Goobi
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt WienBernhard Krabina
Semantic MediaWiki hat das Potenzial, ein ideales Tool für OpenGLAM-Projekte (Galleries, Libraries, Archives, Museums) zu werden.
Gezeigt wird dies am Beispiel des historischen Lexikons der Stadt Wien, das 2014 veröffentlicht wird. Präsentation anlässlich des OpenGLAM-Auftaktes von OKFN.at
Fit für Web 3.0 - Semantische TechnologienUrsulaDeriu
Das Web 3.0 wird eine gigantische Datenbank: Die Web-Inhalte sollen von Computern „verstanden“ werden, massenweise Rohdaten sollen im Internet zugänglich werden. Ziel ist es, diese Daten automatisch zu verknüpfen und so neue Informationen zu generieren, welche die Endanwender bei ihren Entscheidungen unterstützen.
A web crawler is a program that systematically browses websites to index them for search engines like Google and Bing. It starts with popular websites that have high traffic and reads pages to find links to other pages, following those links to crawl the web in an automated way and index all content for search engines. The process allows search engines to constantly discover and catalog new pages to provide up-to-date search results to users.
This document summarizes a research paper on implementing a web crawler on a client machine rather than a server. It describes the basic workings of web crawlers, including downloading pages, extracting links, and recursively visiting pages. It then presents the design of a crawler that uses multiple HTTP connections and asynchronous downloading via multiple threads to optimize performance on a client system. The software architecture includes modules for URL scheduling, multi-threaded downloading, parsing pages to extract URLs/content, and storing downloaded data in a database.
This document discusses the architecture and approaches of web crawlers. It describes how web crawlers work by systematically browsing websites to gather pages. The key components of a web crawler include its crawling process, which prioritizes URLs using selection policies. Web crawlers are important utilities as they support search engines by gathering pages to improve searching efficiency and perform tasks like data mining and web site analysis. The document reviews several papers on focused crawling and ontology-based approaches. It also discusses challenges for crawlers in selecting important pages to download while avoiding overloading websites.
Web crawling involves automated programs known as web crawlers or spiders that systematically browse the World Wide Web and extract information from websites. Crawlers are used by search engines to build comprehensive indexes of websites and their contents. The basic operation of crawlers involves starting with seed URLs, fetching and parsing web pages to extract new URLs, placing those URLs on a queue to crawl, and repeating the process. There are various types of crawlers that differ in how frequently they recrawl sites and whether they focus on specific topics. Key challenges of web crawling include the large volume and dynamic nature of web content as well as high rates of change.
The document discusses search engines and web crawlers. It provides information on how search engines work by using web crawlers to index web pages and then return relevant results when users search. It also compares major search engines like Google, Yahoo, MSN, Ask Jeeves, and Live Search based on factors like market share, database size and freshness, ranking algorithms, and treatment of spam. Google is highlighted as having the largest market share and best algorithms for determining natural vs artificial links.
A web crawler works by starting with a specified URL and recursively retrieving links within pages to build a crawl frontier of URLs to visit. It checks each URL to see if it exists and parses the page to extract new links, adding them to the frontier. This process continues recursively to a depth of around 5 levels typically to gather most on-site information before stopping to avoid getting trapped on pages with infinite loops of links.
Web crawlers, also known as robots or bots, are programs that systematically browse the internet and index websites for search engines. Crawlers follow links from seed URLs and download pages to extract new URLs to crawl. They use techniques like breadth-first crawling to efficiently discover as much of the web as possible. Crawlers must have policies to select pages, revisit sites, be polite to not overload websites, and coordinate distributed crawling. Their high-performance architecture is crucial for search engines to comprehensively index the large and constantly changing web.
Web crawling involves automated programs called crawlers or spiders that browse the web methodically to index web pages for search engines. Crawlers start from seed URLs and extract links from visited pages to discover new pages, repeating the process until a desired size or time limit is reached. Crawlers are used by search engines to build indexes of web content and ensure freshness through revisiting URLs. Challenges include the web's large size, fast changes, and dynamic content generation. APIs allow programmatic access to web services and information through REST, HTTP POST, and SOAP.
Slide-Deck zur Session "Getting Data with import.io" im Rahmen der SEO CAMPIXX 2016 in Berlin.
Der Vortrag gibt eine Einführung zu import.io und den derzeit verfügbaren Tools: Magic, Extractor, Crawler und Connector, beschreibt die Vorgehensweise und zeigt Beispiele für den Einsatz mit Bezug auf SEO und Online Marketing.
Die Bündelung und Vernetzung der Präsentationen des kulturellen Erbes. Es erhöht die Findbarkeit der Informationen aus dem Kulturbereich, die wissenschaftliche Nutzbarkeit des Primärquellen: Objekt und Archivalie und sichert die Qualität der Suchergebnisse durch den Aufbau einer „trusted community“. Nationale und internationale Fachangebote werden nutzbar für jeden Interessierten und den "memory Institutions" bieten sich neue Wege der "Wissensgenerierung".
www.museum-digital.de * project presentation at athena-workshop in Stuttgart,...museum-digital
Presentation of the museum-digital project at a workshop of the EU funded athena-projekt (www.athenaeurope.org) in Stuttgart, Germany (Württembergisches Landesmuseum) November 5, 2009
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteJakob .
Vortrag von Jakob Voß an der Bibliothek der
Westsächsischen Hochschule Zwickau (siehe http://biblog.fh-zwickau.de/2010/03/29/semantic-web-und-linked-data/)
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
1. Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
2.
3.
4.
5. Domain Wachstum D-A-CH CH DE AT Quellen: http://www.denic.de , http://www.nic.at/ , https://www.nic.ch