Searchperience Indexierungspipeline

Sunday, June 17, 2012 1
Indexing Pipeline (de)
Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger

Über Searchperience
Kurzer Überblick
 Eine eigenständige Suchfunktion für
Webseiten und Online-Shops
 Basierend auf hochleistungsfähiger Open
Source Apache Solr Technologie
 SaaS Cloud Service
Und weil es ein Erlebnis für die Benutzer
und nicht nur eine Suche ist, nennen wir
es Searchperience!

Searchperience Komponenten
Searchperience
Indexer
CMS +Searcher
Index
SOLR Cloud
Query Processing
Result Processing
Facetted Search
Fuzzy Search
Livesuggest
Search Widgets
Rich
Data
Unstructured
Data
Structured
Data
Search
Analytics
Pipeline

What is an Indexing Pipeline?
Structured
Data
Unstructured
Data
Rich
Data
Pipeline
 „Garbage In, Garbage Out“ - Also müssen
wir das meiste aus den Daten „rausholen“
 Die abhängigen Einzelschritte in einer
Indexierungspipeline bereiten ein
Dokument für den Suchindex vor:
 Dokumentenfelder mit extrahierten
und ermittelten Inhalten
 Dokumentenwichtigkeit (Boost)
 ausgehende Relationen (Links)
 Intelligente und manuelle Anreicherung
 Filterung, Statistiken, skalierbare
Ausführung...

Indexer Processes
Indexer Architecture
Documents +
Relations
Crawler Queue
LinkQueue
Enrichment
Crawler
Indexer
PageRank Calc
...
API
Indexer „Database“

An Indexer Example Pipeline
Conditional Subpipes:
„Check Document mimetype and source ..etc“
is product page? is job page? is not „text/*“ mimetype?
XHTML Extracter
„Extract content and product data“
Enrich by Feed
„add price from SAP feed“
Add Boost +40
XHTML Extracter
„Extract Joboffer data“
Get rating from
qype
Tika Extracter
„Extract rich content“
Detect language
Thesaurus
Expansion
Pagerank Evaluation
Searchperience Enrichments
...
Image Analysis

Sunday, June 17, 2012
 XML Extracter
 XHTML Extracter
 Tika Extracter
 Custom Extracter
7
Indexer Pipeline Steps
Different Extracters

Language Detection
 Spracherkennung an Hand
Text
 langdetect“ Open Source mit
entsprechenden Lerndaten

Thesaurus Expansion
 Suche nach „Drahtesel“ findet
auch „Fahrräder“
 Verschiedene Thesauri können
nach Spracherkennung oder
Dokumententyp eingesetzt
werden um gezielt Inhalte mit
ihren Synonymen zu erweitern

 Nutzt TFIDF werte für
das Dokument in Bezug
auf den aktuellen Index
 Beispielsweise genutzt
für Keyword Boosting
und Personalisierung
10
Interesting Terms
Barack Obama
Navigation
Eurokrise

 Open NLP
 Open Calais
 Named Entity Recognition
 Anreicherung mit Daten aus
dem sematic Web
(Wikipedia...)
11
NLP & Semantic Extraction
Person: Barack Obama
City: Berlin
Time: 9.11.2001

Learn from User Behaviour / Search Analytics Processing
Auswertung des
Nutzerverhalten
beeinflusst
Dokumenten
Keywords und
Dokumenten-
wichtigkeit

Learn from User Behaviour / Search Analytics Processing
Manuelle Auslese und
Anreicherung...

Anreicherungspflege für Suchadministratoren
Regelbasierte
Keywort
Anreicherung
und Boosting-
manipulation

Kontrolle auf Dokumentenebene
Dokumente
Boosten,
Prominent
darstellen oder
sperren

SOLR is not an Indexing Pipeline
 Es gibt einfache Konzepte
(UpdateChain / LangDetect /
ExtractingRequestHandler)
 Keine richtigen abhängigen
Auswertungen / Unflexibel
 Kein Framework für eigene
Pipeline-Steps
 Keine testgeriebene Pipeline
Konfiguration möglich
 Skalierung und Verteilung der
Indexierung
Gute Auffindbarkeit braucht flexible Kontrolle

SOLR is not an Indexing Pipeline
 Der Searchperience Indexer hat
eine eigenentwickelte Crawling
und Indexierungs- Architektur,
und stellt ein Kernbestandteil der
Lösung dar.
 Andere Lösungen
Pipeline Projects
 Open Pipe
 UIMA
 https://docs.google.com/
spreadsheet/ccc?
key=0ApsMZSogVbD9dERlRlAyZXp
ES0JJNjVJaFlLQVN5UXc#gid=0

Vielen Dank!
Fragen?

Searchperience Indexierungspipeline

Weitere ähnliche Inhalte

Andere mochten auch

Mehr von AOE

Searchperience Indexierungspipeline