TECHNOLOGY 
DRIVES 
BUSINESS
Apache Solr – 
die Moderne Open Source 
Suchtechnologie und deren 
Relevanz im Big-Data-Umfeld 
Daniel Wrigley
Daniel Wrigley 
> Consultant für Search & Big Data Technologies 
> Zertifizierter Apache Solr Trainer 
> Autor des Buchs „Einführung in Apache Solr“ 
> daniel.wrigley@shi-gmbh.com 
> @wrigley_dan 
@wrigley_dan
WAS WIR TUN 
Wir realisieren Lösungen zur optimalen 
Nutzung von Daten. 
> Commerce Search 
> Intranet Portal Search 
> Website Search 
> Search Knowledge Management 
> Explorative Datenanalyse 
> Social Media Monitoring Tools
SEIT 1994 
HEUTE Herstellerunabhängiges Unternehmen. Lösungen für Suche, 
Navigation und Datenanalyse mit Fokus auf Open Source. 
2014 Partnerschaft mit E-Commerce-Leitfaden 
2013 Partnerschaft mit Smartlogic 
2011 Partnerschaft mit LucidWorks 
2000 Erste Projekte mit Open Source 
1994 Unternehmensgründung und Entwicklung eines Produkts
Agenda 
> Was ist Solr? 
> Was kann Solr? 
> Was spricht für Solr? 
> Einsatzgebiete von Solr 
> Solr + Big Data = ? 
> SolrCloud – Solr's Skalierbarkeit 
> Ein Blick über den Tellerrand
Was ist Solr? 
> Open Source Framework für Suchapplikationen 
> Skalierbarer Suchserver mit Apache Lucene als Kern 
> REST-like HTTP/XML und JSON APIs 
> Programmierfreie Integration durch Externe Konfiguration 
> Plugin-Architektur für Erweiterte Anpassung 
> Aktuelle Version: Solr 4.10.2 
> Weltweit am meisten verbreitete Suchtechnologie
Solr is both established & 
growing 
8M+ total 
downloads 
250,000+ 
monthly downloads 
Largest community of developers. 
2500+ 
open Solr jobs. 
Solr most widely used 
search 
solution on the planet. 
Lucidworks 
Unmatched Solr expertise. 
1/3 
of the active 
committers 
70% 
of the open source 
code is committed 
Lucene/Solr Revolution 
world’s largest open source user 
conference dedicated to Lucene/Solr. 
You use 
Solr everyday. 
Solr has tens of thousands 
of applications in production.
Was ist Solr? 
Quelle: Infographic – The Solr Eclipse, http://lucidworks.com/blog/infographic-solr-eclipse/
"Normale" Suche "Erweiterte" Suche 
Autosuggest 
Facetten 
Trefferliste 
Sortierung
Warum Solr? 
> Kein Vendor-Lock 
> Voller Zugriff auf Source Code 
> Aktive Community 
> Kostenfreie Apache 2.0 Lizenz 
> Performance 
> Skalierbarkeit 
> Beeinflussbare Relevanzberechnung (Basis: TF-IDF)
Einsatzgebiete von Solr
Solr + Big Data = ? 
Data 
Acquisition 
Solr 
Application Users 
Application Users 
Application Users 
Data 
Storage 
Enrichment
SolrCloud – Solr's Skalierbarkeit 
> Apache ZooKeeper als Verwaltungseinheit 
> Zentrale Konfiguration des Clusters 
> Load Balancing 
> Ausfallsicherheit durch Replicas 
> Verteilte Indexierung und Suche durch Aufteilung in Shards 
> RealTimeGet und Near Real Time Search 
> Automatismen zur Verteilung der Indexierungsrequests
SolrCloud – Solr's Skalierbarkeit
SolrCloud – Solr's Skalierbarkeit
Blick über den Tellerrand 
> Machine Learning  Apache Mahout 
> Visualizing Analytics  SiLK 
> Linguistics  Apache OpenNLP 
> Semantic Enhancement  Apache UIMA/Apache Stanbol/Apache 
OpenNLP 
> Data Storage  Apache Hadoop 
> Data Enrichment  MapReduce/Apache Spark 
> Data Acquisition  Apache Flume
Links & Quellen 
> Who is using Lucene/Solr: http://lucidworks.com/blog/who-uses-lucenesolr/ 
> Infographic – The Solr Eclipse: 
http://lucidworks.com/blog/infographic-solr-eclipse/ 
> Solr Reference Guide – SolrCloud: 
https://cwiki.apache.org/confluence/display/solr/SolrCloud
KONTAKT 
SHI GmbH & Co. KG 
Curt-Frenzel-Str. 12 
D - 86167 Augsburg 
info@shi-gmbh.com 
+49.821.74 82 633 - 0 
@SHIEngineers

Apache Solr - die Moderne Open Source Technologie

  • 1.
  • 2.
    Apache Solr – die Moderne Open Source Suchtechnologie und deren Relevanz im Big-Data-Umfeld Daniel Wrigley
  • 3.
    Daniel Wrigley >Consultant für Search & Big Data Technologies > Zertifizierter Apache Solr Trainer > Autor des Buchs „Einführung in Apache Solr“ > daniel.wrigley@shi-gmbh.com > @wrigley_dan @wrigley_dan
  • 4.
    WAS WIR TUN Wir realisieren Lösungen zur optimalen Nutzung von Daten. > Commerce Search > Intranet Portal Search > Website Search > Search Knowledge Management > Explorative Datenanalyse > Social Media Monitoring Tools
  • 5.
    SEIT 1994 HEUTEHerstellerunabhängiges Unternehmen. Lösungen für Suche, Navigation und Datenanalyse mit Fokus auf Open Source. 2014 Partnerschaft mit E-Commerce-Leitfaden 2013 Partnerschaft mit Smartlogic 2011 Partnerschaft mit LucidWorks 2000 Erste Projekte mit Open Source 1994 Unternehmensgründung und Entwicklung eines Produkts
  • 6.
    Agenda > Wasist Solr? > Was kann Solr? > Was spricht für Solr? > Einsatzgebiete von Solr > Solr + Big Data = ? > SolrCloud – Solr's Skalierbarkeit > Ein Blick über den Tellerrand
  • 7.
    Was ist Solr? > Open Source Framework für Suchapplikationen > Skalierbarer Suchserver mit Apache Lucene als Kern > REST-like HTTP/XML und JSON APIs > Programmierfreie Integration durch Externe Konfiguration > Plugin-Architektur für Erweiterte Anpassung > Aktuelle Version: Solr 4.10.2 > Weltweit am meisten verbreitete Suchtechnologie
  • 8.
    Solr is bothestablished & growing 8M+ total downloads 250,000+ monthly downloads Largest community of developers. 2500+ open Solr jobs. Solr most widely used search solution on the planet. Lucidworks Unmatched Solr expertise. 1/3 of the active committers 70% of the open source code is committed Lucene/Solr Revolution world’s largest open source user conference dedicated to Lucene/Solr. You use Solr everyday. Solr has tens of thousands of applications in production.
  • 9.
    Was ist Solr? Quelle: Infographic – The Solr Eclipse, http://lucidworks.com/blog/infographic-solr-eclipse/
  • 10.
    "Normale" Suche "Erweiterte"Suche Autosuggest Facetten Trefferliste Sortierung
  • 11.
    Warum Solr? >Kein Vendor-Lock > Voller Zugriff auf Source Code > Aktive Community > Kostenfreie Apache 2.0 Lizenz > Performance > Skalierbarkeit > Beeinflussbare Relevanzberechnung (Basis: TF-IDF)
  • 12.
  • 13.
    Solr + BigData = ? Data Acquisition Solr Application Users Application Users Application Users Data Storage Enrichment
  • 14.
    SolrCloud – Solr'sSkalierbarkeit > Apache ZooKeeper als Verwaltungseinheit > Zentrale Konfiguration des Clusters > Load Balancing > Ausfallsicherheit durch Replicas > Verteilte Indexierung und Suche durch Aufteilung in Shards > RealTimeGet und Near Real Time Search > Automatismen zur Verteilung der Indexierungsrequests
  • 15.
    SolrCloud – Solr'sSkalierbarkeit
  • 16.
    SolrCloud – Solr'sSkalierbarkeit
  • 17.
    Blick über denTellerrand > Machine Learning  Apache Mahout > Visualizing Analytics  SiLK > Linguistics  Apache OpenNLP > Semantic Enhancement  Apache UIMA/Apache Stanbol/Apache OpenNLP > Data Storage  Apache Hadoop > Data Enrichment  MapReduce/Apache Spark > Data Acquisition  Apache Flume
  • 18.
    Links & Quellen > Who is using Lucene/Solr: http://lucidworks.com/blog/who-uses-lucenesolr/ > Infographic – The Solr Eclipse: http://lucidworks.com/blog/infographic-solr-eclipse/ > Solr Reference Guide – SolrCloud: https://cwiki.apache.org/confluence/display/solr/SolrCloud
  • 19.
    KONTAKT SHI GmbH& Co. KG Curt-Frenzel-Str. 12 D - 86167 Augsburg info@shi-gmbh.com +49.821.74 82 633 - 0 @SHIEngineers