Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Sunday, June 17, 2012 1Indexing Pipeline (de)Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012 2Über SearchperienceKurzer Überblick Eine eigenständige Suchfunktion fürWebseiten und Online-Shops...
Sunday, June 17, 2012 3Searchperience KomponentenSearchperienceIndexerCMS +SearcherIndexSOLR CloudQuery ProcessingResult P...
Sunday, June 17, 2012 4What is an Indexing Pipeline?StructuredDataUnstructuredDataRichDataPipeline „Garbage In, Garbage O...
Indexer ProcessesSunday, June 17, 2012 5Indexer ArchitectureDocuments +RelationsCrawler QueueLinkQueueEnrichmentCrawlerInd...
Sunday, June 17, 2012 6An Indexer Example PipelineConditional Subpipes:„Check Document mimetype and source ..etc“is produc...
Sunday, June 17, 2012 XML Extracter XHTML Extracter Tika Extracter Custom Extracter7Indexer Pipeline StepsDifferent Ex...
Sunday, June 17, 2012 8Indexer Pipeline StepsLanguage Detection Spracherkennung an HandText langdetect“ Open Source mite...
Sunday, June 17, 2012 9Indexer Pipeline StepsThesaurus Expansion Suche nach „Drahtesel“ findetauch „Fahrräder“ Verschied...
Sunday, June 17, 2012 Nutzt TFIDF werte fürdas Dokument in Bezugauf den aktuellen Index Beispielsweise genutztfür Keywor...
Sunday, June 17, 2012 Open NLP Open Calais Named Entity Recognition Anreicherung mit Daten ausdem sematic Web(Wikipedi...
Sunday, June 17, 2012 12Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingAuswertung desNutzerv...
Sunday, June 17, 2012 13Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingManuelle Auslese undA...
Sunday, June 17, 2012 14Indexer Pipeline StepsAnreicherungspflege für SuchadministratorenRegelbasierteKeywortAnreicherungu...
Sunday, June 17, 2012 15Indexer Pipeline StepsKontrolle auf DokumentenebeneDokumenteBoosten,Prominentdarstellen odersperren
Sunday, June 17, 2012 16SOLR is not an Indexing Pipeline Es gibt einfache Konzepte(UpdateChain / LangDetect /ExtractingRe...
Sunday, June 17, 2012 17SOLR is not an Indexing Pipeline Der Searchperience Indexer hateine eigenentwickelte Crawlingund ...
Sunday, June 17, 2012 18Vielen Dank!Fragen?
Nächste SlideShare
Wird geladen in …5
×

Searchperience Indexierungspipeline

508 Aufrufe

Veröffentlicht am

Jun 27, 2012

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

Searchperience Indexierungspipeline

  1. 1. Sunday, June 17, 2012 1Indexing Pipeline (de)Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
  2. 2. Sunday, June 17, 2012 2Über SearchperienceKurzer Überblick Eine eigenständige Suchfunktion fürWebseiten und Online-Shops Basierend auf hochleistungsfähiger OpenSource Apache Solr Technologie SaaS Cloud ServiceUnd weil es ein Erlebnis für die Benutzerund nicht nur eine Suche ist, nennen wires Searchperience!
  3. 3. Sunday, June 17, 2012 3Searchperience KomponentenSearchperienceIndexerCMS +SearcherIndexSOLR CloudQuery ProcessingResult ProcessingFacetted SearchFuzzy SearchLivesuggestSearch WidgetsRichDataUnstructuredDataStructuredDataSearchAnalyticsPipeline
  4. 4. Sunday, June 17, 2012 4What is an Indexing Pipeline?StructuredDataUnstructuredDataRichDataPipeline „Garbage In, Garbage Out“ - Also müssenwir das meiste aus den Daten „rausholen“ Die abhängigen Einzelschritte in einerIndexierungspipeline bereiten einDokument für den Suchindex vor: Dokumentenfelder mit extrahiertenund ermittelten Inhalten Dokumentenwichtigkeit (Boost) ausgehende Relationen (Links) Intelligente und manuelle Anreicherung Filterung, Statistiken, skalierbareAusführung...
  5. 5. Indexer ProcessesSunday, June 17, 2012 5Indexer ArchitectureDocuments +RelationsCrawler QueueLinkQueueEnrichmentCrawlerIndexerPageRank Calc...APIIndexer „Database“
  6. 6. Sunday, June 17, 2012 6An Indexer Example PipelineConditional Subpipes:„Check Document mimetype and source ..etc“is product page? is job page? is not „text/*“ mimetype?XHTML Extracter„Extract content and product data“Enrich by Feed„add price from SAP feed“Add Boost +40XHTML Extracter„Extract Joboffer data“Get rating fromqypeTika Extracter„Extract rich content“Detect languageThesaurusExpansionPagerank EvaluationSearchperience Enrichments...Image Analysis
  7. 7. Sunday, June 17, 2012 XML Extracter XHTML Extracter Tika Extracter Custom Extracter7Indexer Pipeline StepsDifferent Extracters
  8. 8. Sunday, June 17, 2012 8Indexer Pipeline StepsLanguage Detection Spracherkennung an HandText langdetect“ Open Source mitentsprechenden Lerndaten
  9. 9. Sunday, June 17, 2012 9Indexer Pipeline StepsThesaurus Expansion Suche nach „Drahtesel“ findetauch „Fahrräder“ Verschiedene Thesauri könnennach Spracherkennung oderDokumententyp eingesetztwerden um gezielt Inhalte mitihren Synonymen zu erweitern
  10. 10. Sunday, June 17, 2012 Nutzt TFIDF werte fürdas Dokument in Bezugauf den aktuellen Index Beispielsweise genutztfür Keyword Boostingund Personalisierung10Indexer Pipeline StepsInteresting TermsBarack ObamaNavigationEurokrise
  11. 11. Sunday, June 17, 2012 Open NLP Open Calais Named Entity Recognition Anreicherung mit Daten ausdem sematic Web(Wikipedia...)11Indexer Pipeline StepsNLP & Semantic ExtractionPerson: Barack ObamaCity: BerlinTime: 9.11.2001
  12. 12. Sunday, June 17, 2012 12Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingAuswertung desNutzerverhaltenbeeinflusstDokumentenKeywords undDokumenten-wichtigkeit
  13. 13. Sunday, June 17, 2012 13Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingManuelle Auslese undAnreicherung...
  14. 14. Sunday, June 17, 2012 14Indexer Pipeline StepsAnreicherungspflege für SuchadministratorenRegelbasierteKeywortAnreicherungund Boosting-manipulation
  15. 15. Sunday, June 17, 2012 15Indexer Pipeline StepsKontrolle auf DokumentenebeneDokumenteBoosten,Prominentdarstellen odersperren
  16. 16. Sunday, June 17, 2012 16SOLR is not an Indexing Pipeline Es gibt einfache Konzepte(UpdateChain / LangDetect /ExtractingRequestHandler) Keine richtigen abhängigenAuswertungen / Unflexibel Kein Framework für eigenePipeline-Steps Keine testgeriebene PipelineKonfiguration möglich Skalierung und Verteilung derIndexierungGute Auffindbarkeit braucht flexible Kontrolle
  17. 17. Sunday, June 17, 2012 17SOLR is not an Indexing Pipeline Der Searchperience Indexer hateine eigenentwickelte Crawlingund Indexierungs- Architektur,und stellt ein Kernbestandteil derLösung dar. Andere LösungenPipeline Projects Open Pipe UIMA https://docs.google.com/spreadsheet/ccc?key=0ApsMZSogVbD9dERlRlAyZXpES0JJNjVJaFlLQVN5UXc#gid=0
  18. 18. Sunday, June 17, 2012 18Vielen Dank!Fragen?

×