SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
RUHR-UNIVERSITÄT BOCHUM
 Universitätsbibliothek

 Projekt Integriertes Bibliotheksportal




Integration von Apache Solr in TouchPoint
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Was ist Lucene?


      (Java-)Framework zum Indizieren und Suchen
      Doug Cutting (@cutting)
      März 2000
      Aktuell: Version 3.0.1 (26.2.2010)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Was ist Solr?

      Schnelles, skalierbares Enterprise-Suchsystem
      Yonik Seeley (@lucene_solr)
      Ende 2004: CNET
      Anfang 2006: Apache Projekt
      Aktuell: Version 1.4 (10.11.2009)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Was ist Lucene/Solr?


      Seit 15. März 2010: Lucene- und Solr-Code und -Infrastrukturen
      verschmelzen
      Engere Koordination zwischen der Entwicklung von Lucene und Solr
      Neue Lucene-Funktionalitäten schneller in Solr
      Kürzere Release-Zyklen für Solr
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Funktionalitäten von Solr

      RESTful API
      Administrationsoberfläche; Monitoring über JMX
      Konfiguration über XML-Dateien
      Erweiterbar durch Plugin-Architektur
      Konfigurier- und erweiterbares Caching
      Skalierbar durch verteilte Indizes auf mehreren Rechnern
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Funktionalitäten von Solr

      Daten-Schema mit
       numerischen Typen
       eigenem Datums-Typ
       dynamischen Feldern
       eindeutigem Schlüssel pro Dokument (auch UUID als Feld-Typ)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Funktionalitäten von Solr

      Sprachliche Analyse
       Unterschiedliche Tokenizer (Leerraum, HTML, N-Gramme...)
       Filterung mit regulären Ausdrücken, phonetische Filter
       Porter-/Snowball-Stemmer für verschiedene Sprachen
       Stop-Wortlisten, Synonymlisten
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Funktionalitäten von Solr

      (Multiple) Navigatoren und Filter
      Hervorheben von Suchtermen
      Rechtschreibvorschläge
      Vorschläge für ähnliche Treffer
      Clustering von Suchergebnissen
      „Redaktionelles Ranking“ (aka „Best Bet“)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Funktionalitäten von Solr
      Einfaches XML-Format zum Indizieren
      Weitere Handler:
       CSVRequestHandler
       DataImportHandler (FieldReaderDataSource, FileDataSource,
       URLDataSource, JdbcDataSource)
       Solr Cell (= Apache Tika: Microsoft Office, PDF, ODF, RTF, HTML, XML,
       EPub, mbox...)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Skalierbarkeit von Solr


      UB Bochum: ca. 2,3 Mio Datensätze
      Beluga: ca. 4,7 Mio Datensätze
      Nationallizenzen: ca. 22 Mio Datensätze
       „Wir verarbeiten aktuell im Tagesdurchschnitt etwas mehr als 4 Such-
       Requests pro Sekunde (in Solr) und die Kiste langweilt sich zu Tode.“
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Skalierbarkeit von Solr
     Hathi Trust: ca. 5,3 Mio Volltexte (18.2.2010)
     Durchschnittliche Antwortzeit:  3 Sek,  90% der Anfragen in 4 Sekunden, 9%
     zwischen 4 und 24 Sek und 1% länger als 24 Sek
     Hardware: 4 Suchserver mit 1 Tomcat (16 GB Heapspace) und je 3
     „Partitionen“; 10 Partitionen aktiv
     1 Indexserver mit 12 Tomcats (jeweils 6 GB Heapspace) und 12 Partitionen;
     10 Partitionen aktiv
     Informationen: http://www.hathitrust.org/blogs/large-scale-search
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                        Flankierende Technologien

      solrmarc (http://code.google.com/p/solrmarc/)
      Apache Nutch (http://lucene.apache.org/nutch/)
      Alias-I LingPipe (http://alias-i.com/lingpipe/)
      carrot 2       (http://project.carrot2.org/)
      Apache Mahout (http://lucene.apache.org/mahout/)
      Apache Hadoop (http://hadoop.apache.org/)
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Support für Solr

      Lucidworks Certified Distribution For Solr
       Installer
       Zusätzliche Stemmer-Klassen
       Lucene Index Toolbox (Luke)
       LucidGaze for Solr
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Solr-Dokumentation
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Integration in TouchPoint
      Code-Basis: InfoGuide mit einer Schnittstelle für generische Datenquellen
      Implementierung von
       GenericServer,
       ResultHitlist,
       Result,
       DrillDowns,
       MoreLikeThis...
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                         Vielen Dank für Ihre Aufmerksamkeit!

                                                   Fragen?

                                            andre.hagenbruch@rub.de
RUHR-UNIVERSITÄT BOCHUM
Universitätsbibliothek

Integration von Apache Solr in TouchPoint




                                            Bildnachweis


      Titel: http://www.flickr.com/photos/59303791@N00/168921732/
      LucidWorks Reference: http://www.lucidimagination.com/Downloads/
      LucidWorks-for-Solr/Reference-Guide
      Lucene in Action: http://www.manning.com/hatcher3/
      Taming Text: http://www.manning.com/ingersoll/

Weitere ähnliche Inhalte

Andere mochten auch

Präsentation Moodle Workshop Bamberg (Pp Tminimizer)
Präsentation Moodle Workshop Bamberg (Pp Tminimizer)Präsentation Moodle Workshop Bamberg (Pp Tminimizer)
Präsentation Moodle Workshop Bamberg (Pp Tminimizer)Sigi Jakob-Kuehn
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenMax Kaiser
 
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009achtung! GmbH
 
Primer día recreativo en comfandí
Primer día recreativo en comfandíPrimer día recreativo en comfandí
Primer día recreativo en comfandí09anderson
 
Calidad y Estándares. Informática del Ayuntamiento de Madrid
Calidad y Estándares. Informática del Ayuntamiento de MadridCalidad y Estándares. Informática del Ayuntamiento de Madrid
Calidad y Estándares. Informática del Ayuntamiento de MadridCIFF Fundación
 
Elaboración de indicadores
Elaboración de indicadoresElaboración de indicadores
Elaboración de indicadoresMaria Chong
 
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)Wiest Simon
 
Havas_Digital_Bibel_2015
Havas_Digital_Bibel_2015Havas_Digital_Bibel_2015
Havas_Digital_Bibel_2015Peter Rehnke
 
Licencias cc
Licencias ccLicencias cc
Licencias ccbriancib
 
Agile SEO - webinale 2015
Agile SEO - webinale 2015Agile SEO - webinale 2015
Agile SEO - webinale 2015André Scharf
 

Andere mochten auch (20)

Word2007
Word2007Word2007
Word2007
 
Präsentation Moodle Workshop Bamberg (Pp Tminimizer)
Präsentation Moodle Workshop Bamberg (Pp Tminimizer)Präsentation Moodle Workshop Bamberg (Pp Tminimizer)
Präsentation Moodle Workshop Bamberg (Pp Tminimizer)
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
 
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009
Social Media Impuls-Vortrag auf der LPRS Alumni Veranstaltung 2009
 
Marketingplan
MarketingplanMarketingplan
Marketingplan
 
Primer día recreativo en comfandí
Primer día recreativo en comfandíPrimer día recreativo en comfandí
Primer día recreativo en comfandí
 
Presentación2.1
Presentación2.1Presentación2.1
Presentación2.1
 
Calidad y Estándares. Informática del Ayuntamiento de Madrid
Calidad y Estándares. Informática del Ayuntamiento de MadridCalidad y Estándares. Informática del Ayuntamiento de Madrid
Calidad y Estándares. Informática del Ayuntamiento de Madrid
 
Elaboración de indicadores
Elaboración de indicadoresElaboración de indicadores
Elaboración de indicadores
 
Agenhda 43 15 04-2013 borrador
Agenhda 43 15 04-2013 borradorAgenhda 43 15 04-2013 borrador
Agenhda 43 15 04-2013 borrador
 
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)
Continuous Integration mit Hudson (JUG Mannheim, 27.01.2010)
 
Havas_Digital_Bibel_2015
Havas_Digital_Bibel_2015Havas_Digital_Bibel_2015
Havas_Digital_Bibel_2015
 
20100507 Konzern2 0 Artikel Ieb
20100507 Konzern2 0 Artikel Ieb20100507 Konzern2 0 Artikel Ieb
20100507 Konzern2 0 Artikel Ieb
 
Quimica
QuimicaQuimica
Quimica
 
Licencias cc
Licencias ccLicencias cc
Licencias cc
 
Agile SEO - webinale 2015
Agile SEO - webinale 2015Agile SEO - webinale 2015
Agile SEO - webinale 2015
 
La dictadura
La dictaduraLa dictadura
La dictadura
 
Sedentarismo
SedentarismoSedentarismo
Sedentarismo
 
PPP MSOE 2009
PPP MSOE 2009PPP MSOE 2009
PPP MSOE 2009
 
Leuke Uitvindingen. . !
Leuke Uitvindingen. . !Leuke Uitvindingen. . !
Leuke Uitvindingen. . !
 

Ähnlich wie Integration von Apache Solr in TouchPoint

Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungenredsys
 
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...Zukunftswerkstatt
 
Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und WebservicesJakob .
 
Semantische Annotationen mit Plone
Semantische Annotationen mit PloneSemantische Annotationen mit Plone
Semantische Annotationen mit PloneHendrik Bunke
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...flimm
 
Ecm 5 13_djaafar_jas_forge
Ecm 5 13_djaafar_jas_forgeEcm 5 13_djaafar_jas_forge
Ecm 5 13_djaafar_jas_forgeJasmine Conseil
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungAndreas Schreiber
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeChristoph Lange
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...BIS Biblio Info Suisse
 
Swissbib lausanne
Swissbib lausanneSwissbib lausanne
Swissbib lausanneSchaad
 
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB Hamburg
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB HamburgBibliotheken als Software-Schmieden. Erfahrungen aus der SUB Hamburg
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB HamburgAnne Christensen
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & ToolsUlrich Krause
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
Repository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceRepository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceOpenAIRE
 
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...new Html5 features and browser compatibility, Stand der Standardisierung, Übe...
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...Sinan Akalın
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
OAI Object Reuse and Exchange für OA-Netzwerk
OAI Object Reuse and Exchange für OA-NetzwerkOAI Object Reuse and Exchange für OA-Netzwerk
OAI Object Reuse and Exchange für OA-NetzwerkJIwanowa
 

Ähnlich wie Integration von Apache Solr in TouchPoint (20)

Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
 
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...
Oliver Marahrens: TUBfind und PICA – Wie binde ich mein Bibliothekssystem an ...
 
Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und Webservices
 
Semantische Annotationen mit Plone
Semantische Annotationen mit PloneSemantische Annotationen mit Plone
Semantische Annotationen mit Plone
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
 
Ecm 5 13_djaafar_jas_forge
Ecm 5 13_djaafar_jas_forgeEcm 5 13_djaafar_jas_forge
Ecm 5 13_djaafar_jas_forge
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und Raumfahrtforschung
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-Gruppe
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
Auf einen Blick : Anwendungspotenziale von Rauminformationssystemen in Biblio...
 
Swissbib lausanne
Swissbib lausanneSwissbib lausanne
Swissbib lausanne
 
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB Hamburg
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB HamburgBibliotheken als Software-Schmieden. Erfahrungen aus der SUB Hamburg
Bibliotheken als Software-Schmieden. Erfahrungen aus der SUB Hamburg
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & Tools
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
Repository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceRepository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics Service
 
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...new Html5 features and browser compatibility, Stand der Standardisierung, Übe...
new Html5 features and browser compatibility, Stand der Standardisierung, Übe...
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAFWiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
 
OAI Object Reuse and Exchange für OA-Netzwerk
OAI Object Reuse and Exchange für OA-NetzwerkOAI Object Reuse and Exchange für OA-Netzwerk
OAI Object Reuse and Exchange für OA-Netzwerk
 

Integration von Apache Solr in TouchPoint

Hinweis der Redaktion