Einführung in Suchmaschinen und Solr

•Als PPTX, PDF herunterladen•

0 gefällt mir•665 views

Eine kurze Einführung in die grundlegende Funktionsweise von Suchmaschinen, invertierten Dateien und die Architektur von Solr.

Technologie

Was ist eine Suchmaschine?
Dokumente Abfragen
2
Suchmaschine
n-index

Was ist ein Index?
T1
was ist los
3
T2
was ist das
T3
das ist ein fisch
Indexierung
das {(2, 3), (3, 1)}
ein {(3, 3)}
fisch {(3, 4)}
ist {(1, 2), (2, 2), (3, 2)}
was {(1, 1), (2, 1)}

Ein Beispielabfrage 4
ANDwas ist
{1, 2} ∩ {1, 2, 3}
{1, 2}

Solr Architektur 5
Admin
Interface
Request Servlet
Request
Handler
Response
Writer
standard edismax json xml
Update
Servlet
Solr Core
Config – Schema – Analysis – Caching etc.
Lucene

Solr Core 6
Core
solrconfig.xml
schema.xml
types
class
analyzer
fields
name
type
indexed
stored
required
multivalued

Schema: Felder 7
<field name="content“
type="wildcardField"
indexed="true" stored="true“
required="true"
multiValued="false" />
<field name="weight" type="tint"
indexed="true" stored="true"
required="true"
multiValued="false" />

Schema: Typen 8
<fieldType name="wildcardField"
class="solr.TextField"
positionIncrementGap="100">
<analyzer>
<tokenizer
class="solr.KeywordTokenizerFactory"/>
<filter
class="solr.LowerCaseFilterFactory" />
<filter
class="solr.GermanNormalization
FilterFactory" />
</analyzer>
</fieldType>

Vielen Dank!
johannes.stiehler@ideenpla.net

Weitere ähnliche Inhalte

Was ist angesagt?

Finding attacks with these 6 eventsMichael Gough

Working with Deeply Nested Documents in Apache Solr: Presented by Anshum Gupt...Lucidworks

Bagaimana Belajar Menjadi Seorang Penetration Tester (PenTest)Mark Thalib

MongoDB Schema DesignMongoDB

Tutorial on developing a Solr search component pluginsearchbox-com

Memory Forensics for IR - Leveraging Volatility to Hunt Advanced ActorsJared Greenhill

Sharpening your Threat-Hunting Program with ATTACK FrameworkMITRE - ATT&CKcon

JsonSteve Fort

Elastic stack PresentationAmr Alaa Yassen

PandasJyoti shukla

Investigating server logsAnimesh Shaw

XML Schemayht4ever

Operadores para json en pg 9.2Anthony Sotolongo

React Native를 사용한  초간단 커뮤니티 앱 제작Taegon Kim

Introduction to IPython & Jupyter NotebooksEueung Mulyana

ELK introductionWaldemar Neto

Episode 4 - Introduction to SOQL in SalesforceJitendra Zaa

Apache SolrMinh Tran

Going Beyond Microsoft IIS Short File Name Disclosure - NahamCon 2023 EditionSoroush Dalili

DTDKamal Acharya

Was ist angesagt? (20)

Finding attacks with these 6 events

Working with Deeply Nested Documents in Apache Solr: Presented by Anshum Gupt...

Bagaimana Belajar Menjadi Seorang Penetration Tester (PenTest)

MongoDB Schema Design

Tutorial on developing a Solr search component plugin

Memory Forensics for IR - Leveraging Volatility to Hunt Advanced Actors

Sharpening your Threat-Hunting Program with ATTACK Framework

Json

Elastic stack Presentation

Pandas

Investigating server logs

XML Schema

Operadores para json en pg 9.2

React Native를 사용한  초간단 커뮤니티 앱 제작

Introduction to IPython & Jupyter Notebooks

ELK introduction

Episode 4 - Introduction to SOQL in Salesforce

Apache Solr

Going Beyond Microsoft IIS Short File Name Disclosure - NahamCon 2023 Edition

DTD

Ähnlich wie Einführung in Suchmaschinen und Solr

Relevantes schneller finden – mit-Lucene und SolrSHI Search | Analytics | Big Data

Oracle TEXTCarsten Czarski

nagiosplugin - eine Python-Bibliothek für Monitoring-Plugins Christian Kauhaus

Python crash-kursklausbremer

Schnell, schneller, Quarkus!!gedoplan

Web Entwicklung mit PHP - Teil 1Hans-Joachim Piepereit

Funktionales Programmieren mit ClojureDr. Christian Betz

C Sharp Einfuehrung Teil 2DraphonyGames

PyparsingAndreas Schreiber

Warum 'ne Datenbank, wenn wir Elasticsearch haben?Jodok Batlogg

Ähnlich wie Einführung in Suchmaschinen und Solr (10)

Relevantes schneller finden – mit-Lucene und Solr

Oracle TEXT

nagiosplugin - eine Python-Bibliothek für Monitoring-Plugins

Python crash-kurs

Schnell, schneller, Quarkus!!

Web Entwicklung mit PHP - Teil 1

Funktionales Programmieren mit Clojure

C Sharp Einfuehrung Teil 2

Pyparsing

Warum 'ne Datenbank, wenn wir Elasticsearch haben?

Einführung in Suchmaschinen und Solr

1. Einführung in Solr ideenplanet GmbH

2. Was ist eine Suchmaschine? Dokumente Abfragen 2 Suchmaschine n-index

3. Was ist ein Index? T1 was ist los 3 T2 was ist das T3 das ist ein fisch Indexierung das {(2, 3), (3, 1)} ein {(3, 3)} fisch {(3, 4)} ist {(1, 2), (2, 2), (3, 2)} was {(1, 1), (2, 1)}

4. Ein Beispielabfrage 4 ANDwas ist {1, 2} ∩ {1, 2, 3} {1, 2}

5. Solr Architektur 5 Admin Interface Request Servlet Request Handler Response Writer standard edismax json xml Update Servlet Solr Core Config – Schema – Analysis – Caching etc. Lucene

6. Solr Core 6 Core solrconfig.xml schema.xml types class analyzer fields name type indexed stored required multivalued

7. Schema: Felder 7 <field name="content“ type="wildcardField" indexed="true" stored="true“ required="true" multiValued="false" /> <field name="weight" type="tint" indexed="true" stored="true" required="true" multiValued="false" />

8. Schema: Typen 8 <fieldType name="wildcardField" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.KeywordTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.GermanNormalization FilterFactory" /> </analyzer> </fieldType>

9. Vielen Dank! johannes.stiehler@ideenpla.net

Hinweis der Redaktion

Woran erinnert euch das? => DB Was ist der wesentliche Unterschied zu Datenbanken? Atomic Consistent Independent Durable Was davon hat auch eine Suchmaschine? Keine Transaktionen bzw. nur halb, kein Rollback Keine unmittelbare Konsistenz bei verteilten Systemen Keine Relationen, also z.B. auch keine joins => Denormalisierung Hohe Lesegeschwindigkeit Schreiben ist teuer Ranking Optimierte unscharfe und Teilstringsuche Dokumentenvorverarbeitung Boolesche Abfragesprachen Ist ein Suchmaschinenindex das Gleiche wie ein Datenbankindex? B-Tree vs. Inverted Index
eine Liste der Wörter in allen Dokumenten mit einem Verweis auf das dazugehörige Dokument und die lokale Position dort welche Wörter sind wahrscheinlich später unwichtig, welche wichtig? => tf / idf wozu braucht man die lokale Position der Wörter? Ranking (first-occ), Phrasensuche, Highlighting
Wieder Verwandtschaft zu Datenbanken: Abfragesprache hat eine mengentheoretische mathematische Entsprechung Ist ein Dokument ein besserer Treffer als das andere? Die beteiligten Mengen können riesig sein, deshalb werden sie teilweise nach Möglichkeit gecacht.
Solr Core speichert Dokumente, aufgeteilt auf Felder (z.B. eines für den Titel, eines für den Inhalt, eines für die Kategorie) Besonderheit: dynamic fields Analyzer: beschreiben die Behandlung des Feldes bei der Indexierung und der Query bei der Abfrage => muss zusammenpassen, z.B. lowercase, Umlautnormalisierung, Tokenisierung (untokenisiert vs. tokenisiert)
Für Autocomplete nur zwei Felder: Inhalt und Gewicht
Was lernen wir über das Feld „content“? Inhaltsfeld ist untokenisiert, lowercase und mit normalisierten Umlauten

Einführung in Suchmaschinen und Solr

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Einführung in Suchmaschinen und Solr

Ähnlich wie Einführung in Suchmaschinen und Solr (10)

Einführung in Suchmaschinen und Solr

Hinweis der Redaktion