Seit unserem letzten Webinar, in dem wir die beiden Shooting Stars Apache Solr und Elasticsearch gegeneinander antreten ließen, ist kaum ein Monat her. Doch das Innovationstempo der Open Source Gemeinde gönnte uns nur eine kurze Verschnaufpause. Denn in der Zwischenzeit ist sowohl Elasticsearch wie auch Apache Solr in neuen Versionen erschienen und liefern uns genug Gesprächsstoff für ein Webinar bespickt mit wertvollem Know-how. Nehmen Sie teil und informieren Sie sich über Neuerungen in Apache Solr und Elasticsearch.
Inhalte des Webinars:
• Neuerungen in Elasticserach:
o Cat API
o Tribe Node
o Restore API
• Neuerungen in Apache Solr/Heliosearch:
o Überblick
o SolrCloud – Assigning Nodes To Machines
Jax 2012 - Apache Solr as Enterprise Search Platform
What’s new in Apache Solr 4.7 und Elasticsearch 1.1
1. Technology
Drives
Business
WHAT‘S NEW IN
APACHE SOLR 4.7 &
ELASTICSEARCH 1.1
Webinar am 27. März 2014
Apache Solr, Solr, Apache Lucene, Lucene and their logos are trademarks of the Apache Software Foundation.
Elasticsearch, Kibana, Marvel, Logstash are trademarks of Elasticsearch BV, registered in the U.S. and in other countries.
2. DANIEL WRIGLEY
Consultant für Search & Big Data Technologies
Computerlinguist
Durch LucidWorks zertifizierter Apache Solr Trainer
Autor zahlreicher Blogs und
Coautor des Buchs „Einführung in Apache Solr“
@wrigley_dan
3. AGENDA
Kurzvorstellung SHI
Releaseübersicht
What's new in Solr 4.7?
What's new in Elasticsearch 1.0/1.1?
Q & A
4. Heute
2013
2011
SEIT 1994
Hersteller-unabhängiges Unternehmen. Lösungen rund um
Suche, Navigation und Datenanalyse mit Fokus auf Open Source.
Partnerschaft mit
Partnerschaft mit
2000 Erste Projekte mit Open Source
1994 Unternehmensgründung und Entwicklung eines Produkts
5. UNSERE MISSION
Seit 1994 hersteller-unabhängiges Unternehmen für IT Consulting und Software
Engineering.
Wir bieten Lösungen rund um Semantic Search, Analytics und Big Data auf Basis
etablierter Open-Source Software.
Wir stellen Werkzeuge bereit, die durch optimale Nutzung der Technologie und Daten
unsere Kunden beim Erreichen Ihrer Geschäftsziele unterstützen.
6. WAS WIR TUN
MIT SERVICES
DURCH
ANWENDUNG
DES KNOW-HOWS
REALISIEREN
LÖSUNGEN,
UM DATEN
NUTZBAR ZU
MACHEN!
• Strategy Consulting
• Technical Consulting
• Architecture Review
• Development Support
• Team Enablement
Through Workshops and
Trainings
• Technology Comparison
• Tuning & Troubleshooting
• Migration Services
• Experts to Hire
• Service Level Agreements
• Software Architecture
• Coding Services for Java,
C++/C, .NET, PHP for
multiple OSs.
• Continuous Integration
and Test Driven
Development
• Managing Software
Project Lifecycle
• Commerce Search
• Intranet Portal Search
• Website Search
• Search Knowledge
Management
• Analytics
• Social Media Monitoring
UND
ETABLIERTEN
PRODUKTEN
UND
PARTNERN
• Apache Solr/Lucene
• Apache Mahout
• Apache Hadoop, Pig, Hive
• LucidWorks Search
• LucidWorks Search Big Data
7. IHR DRAHT ZU UNS
SHI GmbH & Co. KG
Curt-Frenzel-Str. 12
D - 86167 Augsburg
info@shi-gmbh.com
+49.821.74 82 633 - 0
@SHIEngineers
Michael Marheineke Markus Klose Daniel Wrigley
9. STATUS QUO
SOLR
• NoSQL
• Lucene 4.7.0
• Java
• Aktuelle Version: 4.7.0
• Lizenz: Apache 2.0
• Apache Top Level Projekt
• Ursprung: 2006
ELASTICSEARCH
• NoSQL
• Lucene 4.7.0
• Java
• Aktuelle Version: 1.1
• Lizenz: Apache 2.0
• Gründung der Firma: 2012
10. WHAT'S NEW IN SOLR 4.7.0?
SimpleQueryParser
Tri-Level CompositeId Routing
Migration von Dokumenten zu anderen
Collections
SolrCloud SSL Support
Deep Paging
Indexierung via Hadoop MapReduce
11. SIMPLEQUERYPARSER
Ähnlichkeit zu eDismax QueryParser
Ziel: Query Handling ohne Exceptions
Keine volle Lucene Syntax Unterstützung
Definition der Operatoren mit q.operator
http://localhost:8983/solr/q=clever search –terms
&defType=simple&q.operators=WHITESPACE,NOT&qf=text description^0.5
12. TRI-LEVEL
COMPOSITEID ROUTING
Bisher: Routing mit einer Bedingung
{"id" : "shi!1234567890", …}
Jetzt: Mehrere Level definierbar
{"id" : "shi!webinar!solr!1234567890", …}
Zur Queryzeit: Ein oder mehrere route keys
http://localhost:8983/solr/q=clever search terms&_route_=shi!solr!
13. DOCUMENT MIGRATION
Migration von Dokumenten einer Collection
zu einer anderen
Basierend auf _route_
Weiterleitung von Updates zur Target-
Collection während des Kopiervorgangs
http://localhost:8983/solr/admin/collections?action=MIGRATE&collection=
my_source&split.key=webinar!&target.collection=my_target
14. WHAT'S NEW IN
ELASTICSEARCH 1.0/1.1?
Aggregations Framework
Snapshot & Restore API
Cat API
Tribe Nodes
Distributed Percolator
15. AGGREGATIONS FRAMEWORK
"Nächste Generation" von Facetten
Verschachtelungen möglich
Bucketing:
Einteilung der Dokumentenmenge
anhand Kriterien
Metrics:
Berechnungen auf extrahierten
Feldwerten
Einzelne oder mehrere Werte
16. SNAPSHOT & RESTORE API
Backup und Wiederherstellung per API
Unterstützung von Dateisystem und HDFS
Repositories
Komplettes Cluster-Backup möglich
curl -XPOST
"localhost:9200/_snapshot/backup/snapshot_1?wait_for_completion=true"
Nur Wiederherstellung von geschlossenen
Indexen
17. CAT API
Erleichterung der Clusterverwaltung
"Log-Ausgrabungen" werden durch einfache
Aufrufe ersetzt:
curl "localhost:9200/_cat/master"
8FRS1XIpRTGywgwZZg8mAA DWR-MOBIL AAA.BBB.CCC.DD webinar1
curl "localhost:9200/_cat/nodes"
DWR-MOBIL AAA.BBB.CCC.DD 1 61 d * webinar1
DWR-MOBIL AAA.BBB.CCC.DD 1 61 d m webinar1
Kommandos für health, nodes, master und
shards
18. FEDERATED SEARCH –
TRIBE NODES
Verbindung mehrerer Cluster möglich
Koordination von Cluster-Events
Cluster übergreifende Suchen
Cluster übergreifendes Monitoring mit
Marvel
21. KONTAKT
SHI GmbH & Co. KG
Curt-Frenzel-Str. 12
D - 86167 Augsburg
info@shi-gmbh.com
+49.821.74 82 633 - 0
@SHIEngineers
Michael Marheineke Markus Klose Daniel Wrigley
23. BILDERNACHWEIS
Do You Remember … The Future? - http://www.flickr.com/photos/jdhancock/9544541664
Lizenz: http://creativecommons.org/licenses/by/2.0/
Weitere Bilder wurden über iStockphoto.com bezogen
Hinweis der Redaktion
Agenda erst so spät????
Deutsche Folien?
Wenn Interesse an Fortsetzungen bzw. bestimmten verwandten Themen besteht, können Sie uns gerne schreiben. Es ist durchaus möglich, dass es ein weiteres Webinar aus dieser Reihe gibt. Wir verfolgen Ideen von Zuhörern natürlich gerne weiter, denn dort wissen wir schon sicher von Interessenten.
Wenn es Themen gibt, die eher technischer Natur sind und arg in die Tiefe gehen, kann es sein, dass "nur" ein Blog-Beitrag veröffentlicht wird.
SSL Support: Zusätzliche Sicherheitsmaßnahme in der SolrCloud
Deep Paging: Bedeutung: Man definiert einen start-Parameter mit einem sehr hohen Wert. ineffizient, wenn man die "normale" Paging-Funktion verwendet. Zusätzlicher Drawback in verteilten Systemen. Diesen beiden Deep Paging Probleme wurde entgegen gewirkt, indem man mit Cursor-Markierungen arbeitet und nicht mehr mit dem start-Parameter. Performance-Optimierung Benchmarks auf dem Heliosearch-Blog
Indexierung via Hadoop MapReduce: Wenn bereits die Verarbeitung großer Datenmengen mit Hadoop MapReduce Jobs stattfindet, ist es jetzt eine wesentliche Erleichterung, denn: Im HDFS Verarbeitete Daten müssen nicht mehr exportiert und umgewandelt werden, um sie mit Solr zu indexieren. Die Indexierung kann direkt im HDFS via MapReduce stattfinden. Ebenfalls ist kein neuer Export nötig, wenn neu indexiert werden muss.
defType=simple Verwende SimpleQueryParser
q.operators=WHITESPACE,NOT WHITESPACE sorgt dafür, dass das MINUS als Operator gesehen wird, NOT sorgt dafür, dass das MINUS der NOT Operator ist
Letztes Beispiel: Dokument muss mit beiden route keys indexiert worden sein. Hashwert wird über beide Keys generiert
So kann man also semantisch gesehen z.B. alle Dokumente von SHI suchen, die etwas mit Solr zu tun haben und "clever search terms" beinhalten.
Dokumente nach Commit durchsuchbar und auffindbar
Der letzte Monat enthält die Dokumente, die per Default durchsucht werden sollen. Das heißt, die Dokumente des vergangenen Monats können mit dieser Methode einfach verschoben werden.
Verschachtelungen nur bei Bucketing möglich, nicht bei Metrics! Bucket Aggregations können weiter aggregiert werden, Metrics nicht
Bis vor zwei Monaten war es bei ES nicht möglich Gruppierungen durchzuführen. Jetzt hat ES Solr überholt und Solr muss wiederum nachziehen. Es gibt im Trunk aber bereits eine sog. AnalyticsComponent, durch die Solr nachziehen wird.
Analytics Use Case wird weiter ausgebaut
Möglichkeiten bisher: sum,
In Zukunft soll eine Wiederherstellung von read-only Indexen möglich sein. Aktuell können nur Indexe wiederhergestellt werden, die vorher geschlossen wurden.
Inkrementelle Arbeitsweise. Es werden nur Dateien gesichert bzw. wiederhergestellt.
Wenn Interesse an Fortsetzungen bzw. bestimmten verwandten Themen besteht, können Sie uns gerne schreiben. Es ist durchaus möglich, dass es ein weiteres Webinar aus dieser Reihe gibt. Wir verfolgen Ideen von Zuhörern natürlich gerne weiter, denn dort wissen wir schon sicher von Interessenten.
Wenn es Themen gibt, die eher technischer Natur sind und arg in die Tiefe gehen, kann es sein, dass "nur" ein Blog-Beitrag veröffentlicht wird.