Das Solr System - Suche nicht nur auf Planet TYPO3

dkd
development
kommunikation
design

DasSolr-System

Suche nicht nur auf Planet TYPO3

Ingo Renner, TYPO3 Core Developer
Olivier Dobberkau, Geschäftsführer dkd

IngoRenner

TYPO3 Core Developer
Release Manager TYPO3 4.2
TYPO3 Google Summer of Code Admin

- Caution -
Software Architect, Senior Developer TYPO3-Evangelist
dkd Internet Service GmbH

OlivierDobberkau

aka TYPO3 Reverend Neverend
Geschäftsführer
dkd Internet Service GmbH
Research and Development @ dkd
Kandidat für das BCC - Caution -
der TYPO3 Association TYPO3-Evangelist

ApacheSolr
Open Source Enterprise Search Server

ApacheSolr

Apache Software Foundation

Enterprise Search Server

Basiert auf Lucene Index

Viele starke Funktionen

CNet, Net ix, ilocal.nl, Zappos.com

SolrKey-Features

Synonyme
Stopwords
Gewichtung
Facettierung
Bezahlte Ergebnisse
Fehlerkorrektur
Geschwindigkeit

Wiefunktioniert‘s

REST ähnliches Interface

Indexieren per POST

Suchen per GET

Ergebnisse als XML, JSON, PHP

Bibliotheken

SolrPhpClient

php5_solr PECL Package

SolrIndex

Solr Index
Document Field Field Field Field


Document Field Field Field Field Field

Document Field Field


IndexedSearch

Indexed Search seit TYPO3 Version 3.x an Board
Frontend Indexierung beim Seitenaufruf
Suche in Seiten und einigen Dateien möglich
Berücksichtigt Sprachen und FE-Gruppen

IndexedSearch

Index in der Datenbank
Problematisches Verhalten bei großen Webseiten
Langsam
Keine Sortierung
un exible Templates
OK für kleinere Websites

SucheimZeichender
Sonne.

Apache Solr für TYPO3

Geschichte

Prototyp im Sommer 2008

Kick-off Februar 2009

Erstes Ziel „Acts like Indexed Search“

Early Access Program (EAP)

T3CON September 2009 Version 1.0

Aktuelle Version 1.3 (public Version)

Komponenten

Indexierung

Suche

Flexible Ergebnisausgabe

Analyse und Statistiken

Administration

Herausforderungen

Seiten Rendering in TYPO3

Berücksichtigung von Zugriffsrechten

Dateiindexierung

Einfaches Setup für Nicht-Java Leute

Integration und Zugriff auf Solr

Lösungen

Record Monitor und Indexing Queue

Eigenes Solr Query Parser Plugin

Integration von Apache Tika

Voll automatisiertes bash Install Script

SolrPhpClient und JSON Response Writer

Features

Facettierte Suche

Umfangreiche Dateiindexierung

Multi-language Support

Fehlerkorrektur / Did you mean

Suchwort Highlighting

Autocomplete / Suggestions

Berücksichtigung von Zugriffsrechten

GalileoGalilei

Dreht sich die Sonne um die Erde?

Mond

Der Mond umkreist die Erde.
Entfernung 385.000 Kilometer von der Erde.
Mondlandung 21 Juli 1969.
Enorme Wirkung auf Menschen und Werwölfe.

TYPO3Tabellen

TYPO3 besteht nicht nur aus Seiten
News, FAQ, Events, ...
Gut: Eigene Indexer Erweiterung für FE
Besser: Index Queue
Record Monitor
Garbage Collection
Keine Eigenentwicklung nötig

Mars

Der rote Planet.
Entfernung zur Sonne 228.000.000 Kilometer.
Path nder sendet erste Bilder am 4. Juli 1997.
Leckerer Schokoladen-Riegel.
Kriegsgott im antiken Italien.

Mars

Daten
banke -
n

Tabell
en

Datenbanken

Anwendungsfall: Daten aus Datenbanken
Datenbanken nicht für Suche optimiert
Apache Solr prädestiniert für Suche
Data Import Handler (DIH)
JDBC
Dateilisten
URL zum Beispiel für RSS Feeds, XML

Datenbanken

Inkrementeller Import möglich
Transformer vorhanden
Regex
HTML
Processoren
XPATH

Saturn

Geil ist Geil.
Abstand von Erde 1.430.000.000 Kilometer.
96% der Atmosphäre aus Wasserstoff.
Saturn-Ringe ø 1.000.000 Kilometer.
1610 entdeckte Galilei die Ringe und deutete diese
als Henkel
Gott des Ackerbaus.

Saturn

Daten
banke - CSV
n

Tabell
en

CSVDaten

Wenn alle Stricke reißen: CSV
CSV Update Request Handler
Einfache Kon guration über URL Parameter
Indexierung per POST
Entfernte oder Lokale CSV Dateien
Keine Transformation oder Boosting möglich
Gut für Prototyping!

Venus

Entfernung zur Sonne 108.000.000 Kilometer.
Hellstes Objekt am Himmel nach dem Mond.
Göttin der Liebe und des erotischen Verlangens.
437°C im Schatten.

Venus

Daten
banke - CSV
n

Webs
ites

Tabell
en

AndereWebsites

Jeder hat da sein kleines dunkles Geheimnis
Nicht alle Websites mit CMS Systemen gebaut
Kein Zugriff auf Daten möglich
Nutch Crawler
Crawlt Website ab
Indexiert in eigenen Index
Export zu Apache Solr mittels Mapping Funktion

Jupiter

Höchste Gottheit der römischen Mythologie.
Entfernung 778.000.000 Kilometer zur Sonne.
Tag dauert nur 9 Stunden und 55 Minuten.
ø Temperatur -108 C.
Heimatplanet von Fred.

Jupiter

Daten
banke - CSV
n

Webs
ites

Tabell
en

Dateie
n

Dateien

Word und andere Grausamkeiten
Volltext und unstrukturierte Daten
Meta Informationen in Bildern und Filmen
Apache Tika - Daten Extraktions Toolkit
Meta Daten
Text
Spracherkennung

Dateien

Tika ist in Apache Solr als eigener Handler
vorhanden
Erkennt über 1200 Dateitypen
Kann über 600 davon lesen
Of ce Formate inkl. OOXML, ODF und PDF
Audio, Bilder und Video
E-Mails im mbox Format

dkd
design
kommunikation
development

sagtdanke.

Das Solr System - Suche nicht nur auf Planet TYPO3

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Das Solr System - Suche nicht nur auf Planet TYPO3

Ähnlich wie Das Solr System - Suche nicht nur auf Planet TYPO3 (20)

Mehr von Olivier Dobberkau

Mehr von Olivier Dobberkau (20)

Das Solr System - Suche nicht nur auf Planet TYPO3