The TYPO3 Extension EXT:solr adds a fast, precise and extendable modern search the TYPO3 CMS. In this Presentation you will be informed about the current Status of development of the Extension and its Add-Ons. We will give you an overview on common indexing strategies and offer you insights into the best practices for your implementation
This presentation elaborates on how your relationship with TYPO3 can be improved and can evolve. Being part of the TYPO3 community means to receive a lot of hidden perks that are unlocked with trust, contribution and attrition.
Apache Solr und TYPO3 @ Frankfurt PHP usergroup 2011-01Ingo Renner
A talk shortly introducing TYPO3 and then moving on to Apache Solr, why we chose it, how we integrated it with TYPO3, what challenges we faced, and what solutions we came up with.
Im Kontext von APIs kommt derzeit keiner an REST (Representational State Transfer) vorbei. REST gilt als leichtgewichtige, skalierbare und schnell erlernbare Alternative zu SOAP, die sich die vorhandene Infrastruktur des WWW zunutze macht. In der Praxis hat aber auch REST seine Schwächen. So ist gutes API-Design häufig eine Herausforderung. Für mobile Anwendungen ist REST zu starr und geht nicht effizient genug mit Bandbreite um.
Im Vortrag werden Stärken und Schwächen von REST aufgezeigt und mit GraphQL eine Alternative speziell für den mobilen Kontext vorgestellt.
The TYPO3 Extension EXT:solr adds a fast, precise and extendable modern search the TYPO3 CMS. In this Presentation you will be informed about the current Status of development of the Extension and its Add-Ons. We will give you an overview on common indexing strategies and offer you insights into the best practices for your implementation
This presentation elaborates on how your relationship with TYPO3 can be improved and can evolve. Being part of the TYPO3 community means to receive a lot of hidden perks that are unlocked with trust, contribution and attrition.
Apache Solr und TYPO3 @ Frankfurt PHP usergroup 2011-01Ingo Renner
A talk shortly introducing TYPO3 and then moving on to Apache Solr, why we chose it, how we integrated it with TYPO3, what challenges we faced, and what solutions we came up with.
Im Kontext von APIs kommt derzeit keiner an REST (Representational State Transfer) vorbei. REST gilt als leichtgewichtige, skalierbare und schnell erlernbare Alternative zu SOAP, die sich die vorhandene Infrastruktur des WWW zunutze macht. In der Praxis hat aber auch REST seine Schwächen. So ist gutes API-Design häufig eine Herausforderung. Für mobile Anwendungen ist REST zu starr und geht nicht effizient genug mit Bandbreite um.
Im Vortrag werden Stärken und Schwächen von REST aufgezeigt und mit GraphQL eine Alternative speziell für den mobilen Kontext vorgestellt.
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...Arno Bosse
Presentation in German, "Every Archive its Reader: Academic Web Publishing with Omeka", given on 20th September, 2011 to staff at the Göttingen State and University Library in Niedersachesen, Germany.
Please feel free to contact me (auch gerne auf Deutsch) with questions since the slides don't include embedded notes.
Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.
(License: CC-BY 3.0)
Open Source Search: Die Welt von Apache Lucene - WJax 2009inovex GmbH
Der Qualitätsanspruch von Endbenutzern an Relevanz, Einfachheit, Performanz und Verfügbarkeit von Suchfunktionalität wird maßgeblich von Google geprägt. Kann sich Open-Source-Software dieser Herausforderung stellen? Dieser Vortrag gibt einen Überblick über die aktuellen Möglichkeiten von Lucene 2.9, Solr 1.4 und weiteren Produkten im Umfeld von Apache Lucene.
DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.
Die ganze DevOps-Welt redet von #monitoringsucks, und der ELK-Stack (Elasticsearch, Logstash und Kibana) ist in aller Munde. Schnell ist die Rede vom "Splunk-Killer", und in einschlägigen Social Media gilt das Thema als gesetzt für moderne Operations-Teams. Doch was bedeutet der Einsatz von ELK in der Praxis, für einen mittelständischen IT-Dienstleister mit einem kleinen Team von SREs, die Continuous Delivery schon weitgehend umgesetzt haben und ca. 500 Systeme mit etwa 30 Anwendungen betreuen müssen?
In diesem Talk wird der Aufbau von ELK in der Operations-Praxis beschrieben, die Umsetzung (und Pitfalls) diskutiert und Skalierungsmechanismen für große Datenmengen vorgestellt.
Praktische Umsetzung der Facettensuche
Vortrag auf der Froscon 2013
http://programm.froscon.org/2013/events/1206.html
Die Facettensuche ist inzwischen zu einem wichtigen Hilfsmittel für die benutzerfreundliche Erschließung von großen Datenmengen geworden. Doch wie kann man eine Facettensuche realisieren und worauf ist dabei zu achten? Ziel des Vortrages ist es, diese Fragen zu beantworten und praktische Hinweise zu geben.
Das Apache Lucene Projekt beinhaltet mit Lucene Core - dem Java-basierten Index- und Such-Framework - und mit Solr - dem hochperformanten und konfigurierbaren Such-Server - zwei mächtige Werkzeuge, die zur Implementierung von Suchmaschinen als Open Source Software zur Verfügung stehen.
Der Vortrag wird beide Ansätze vorstellen und zeigen, wie sich damit eine Facettensuche realisieren lässt. Dabei wird sowohl die Möglichkeit der konfigurationsbasierten Facettensuche in Solr als auch die komplexere Herangehensweise über das Lucene Framework vorgestellt und beide Methoden miteinander verglichen.
Neben dem Thema der technischen Vorgehensweise werden dabei auch allgemeine Punkte der Facettensuche betrachtet, etwa Fragen zur Struktur der zu durchsuchenden Daten und der Auswahl von Facetten bis zu Hinweisen zur Darstellung an der Benutzerschnittstelle.
Eine pfeilschnelle Suchmaschine, die mehr kann: Apache Solr für TYPO3 verarbeitet Suchanfragen in Millisekunden und bietet obendrein intelligente Features wie Filter, Synonymsuche oder Autovervollständigung. Olivier Dobberkau zeigt, wie umfangreiche Produktkataloge, Publikationen oder Personenverzeichnisse im Handumdrehen “suchbar” werden.
In this presentation, that we held at MeetTYPO3 Rotterdam, we show how we solved the problem our customer presented us, they had with their product catalog, using TYPO3 and Apache Solr.
Weitere ähnliche Inhalte
Ähnlich wie Das Solr System - Suche nicht nur auf Planet TYPO3
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...Arno Bosse
Presentation in German, "Every Archive its Reader: Academic Web Publishing with Omeka", given on 20th September, 2011 to staff at the Göttingen State and University Library in Niedersachesen, Germany.
Please feel free to contact me (auch gerne auf Deutsch) with questions since the slides don't include embedded notes.
Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.
(License: CC-BY 3.0)
Open Source Search: Die Welt von Apache Lucene - WJax 2009inovex GmbH
Der Qualitätsanspruch von Endbenutzern an Relevanz, Einfachheit, Performanz und Verfügbarkeit von Suchfunktionalität wird maßgeblich von Google geprägt. Kann sich Open-Source-Software dieser Herausforderung stellen? Dieser Vortrag gibt einen Überblick über die aktuellen Möglichkeiten von Lucene 2.9, Solr 1.4 und weiteren Produkten im Umfeld von Apache Lucene.
DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.
Die ganze DevOps-Welt redet von #monitoringsucks, und der ELK-Stack (Elasticsearch, Logstash und Kibana) ist in aller Munde. Schnell ist die Rede vom "Splunk-Killer", und in einschlägigen Social Media gilt das Thema als gesetzt für moderne Operations-Teams. Doch was bedeutet der Einsatz von ELK in der Praxis, für einen mittelständischen IT-Dienstleister mit einem kleinen Team von SREs, die Continuous Delivery schon weitgehend umgesetzt haben und ca. 500 Systeme mit etwa 30 Anwendungen betreuen müssen?
In diesem Talk wird der Aufbau von ELK in der Operations-Praxis beschrieben, die Umsetzung (und Pitfalls) diskutiert und Skalierungsmechanismen für große Datenmengen vorgestellt.
Praktische Umsetzung der Facettensuche
Vortrag auf der Froscon 2013
http://programm.froscon.org/2013/events/1206.html
Die Facettensuche ist inzwischen zu einem wichtigen Hilfsmittel für die benutzerfreundliche Erschließung von großen Datenmengen geworden. Doch wie kann man eine Facettensuche realisieren und worauf ist dabei zu achten? Ziel des Vortrages ist es, diese Fragen zu beantworten und praktische Hinweise zu geben.
Das Apache Lucene Projekt beinhaltet mit Lucene Core - dem Java-basierten Index- und Such-Framework - und mit Solr - dem hochperformanten und konfigurierbaren Such-Server - zwei mächtige Werkzeuge, die zur Implementierung von Suchmaschinen als Open Source Software zur Verfügung stehen.
Der Vortrag wird beide Ansätze vorstellen und zeigen, wie sich damit eine Facettensuche realisieren lässt. Dabei wird sowohl die Möglichkeit der konfigurationsbasierten Facettensuche in Solr als auch die komplexere Herangehensweise über das Lucene Framework vorgestellt und beide Methoden miteinander verglichen.
Neben dem Thema der technischen Vorgehensweise werden dabei auch allgemeine Punkte der Facettensuche betrachtet, etwa Fragen zur Struktur der zu durchsuchenden Daten und der Auswahl von Facetten bis zu Hinweisen zur Darstellung an der Benutzerschnittstelle.
Eine pfeilschnelle Suchmaschine, die mehr kann: Apache Solr für TYPO3 verarbeitet Suchanfragen in Millisekunden und bietet obendrein intelligente Features wie Filter, Synonymsuche oder Autovervollständigung. Olivier Dobberkau zeigt, wie umfangreiche Produktkataloge, Publikationen oder Personenverzeichnisse im Handumdrehen “suchbar” werden.
In this presentation, that we held at MeetTYPO3 Rotterdam, we show how we solved the problem our customer presented us, they had with their product catalog, using TYPO3 and Apache Solr.
This Presentation was given at the TYPO3 Launch Event in Milano, Italy.
I will show you how TYPO3 has evolved into being cloud-ready. Additionally, this will show how your organization can profit from easier and faster innovation cycles. This will include a Demo of a TYPO3 v8 being deployed on Platform.sh.
Disclaimer: Beware of the quotes given in this presentation! :-)
In this presentation we will speak about how Universities can cooperate with TYPO3.
How a common view on the actual status of TYPO3 usage can happen.
And how a joint future within technical requirements can look like.
Literally: How can cooperation happen under the umbrella of the TYPO3 Association.
In diesem Vortrag geht es darum, wie Universitäten und Fachhochschulen mit TYPO3 zusammenarbeiten können. Wie ein gemeinsamer Blick auf dem aktuellen Zustand der Nutzung von TYPO3 passieren kann. Und wie eine Zukunft innerhalb der technischen Vorgaben aussehen kann.
Konkret: Wie kann eine Zusammenarbeit miteinander unter dem Dach der TYPO3 Association passieren?
Finden die Besucher Ihrer Website wirklich die Information, die diese suchen? Eine gute Suche auf ihrer Website führt zu längeren Verbleib und mehr Transaktionen. Apache Solr für TYPO3 bietet hierfür die Grundlagen und dieser Vortrag informiert über fortgeschrittene Integration in TYPO3 CMS.
This is a presentation of Hosted Solr as a Search as a Service component for your CMS or Web Application. We also showcase some of the TYPO3 Solr implementations made by us and other TYPO Community members.
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Olivier Dobberkau
What is the value of the content on your website? Which one is creating value for your business? Who created it and how does the network of your editors perform?
In this presentation we want to introduce you to the ideas of our work that is done in the ForgetIt Project. We will also give an insight into how we think CMIS will be implemented in TYPO3 CMS so that content can be exchanged thru a content repository.
Last but not least we will give you a brief view into our semantic and concept detection services that we will introduce to TYPO3 CMS.
ForgetIT: Beyond the page: Giving content a meaning and valueOlivier Dobberkau
Following the concept of human memory Forget IT aims to create a framework which will bring “managed forgetting” to TYPO3 CMS. It will provide semantic annotation, intelligent preservation and managed archiving of content objects. Learn what dkd plans for 2014 and how you can contribute.
While preservation of digital content is now well established in memory institutions such as national libraries and archives, it is still in its infancy in most other organizations, and even more so for personal content. ForgetIT combines three new concepts to ease the adoption of preservation in the personal and organizational context.
Managed Forgetting:
Managed Forgetting models resource selection as a function of attention and significance dynamics. It is inspired by the important role of forgetting in human memory and focuses on characteristic signals of reduction in salience.
Synergetic Preservation:
Synergetic Preservation crosses the chasm that exists between active information use and preservation management by making intelligent preservation processes an integral part of the content lifecycle in information management.
Contextualized Remembering:
Contextualized Remembering targets keeping preserved content meaningful and useful. It will be based on a process of dynamic evolution-aware contextualization.
Impact on TYPO3 CMS:
Together with the TYPO3 community and selected pilot customers, dkd will work on establishing the respective extensions to provide these concepts to TYPO3 CMS and its user base.
Olivier will introduce you the project, its concepts and the framework architecture. The past year has been used to define these and a solid foundation was laid.
We elaborated the design and functional requirements by using two use cases (I. Press release, II. DAM integration into the backend).
The current year in the project will be used to create a first and working implementation.
What does this mean for you?
After a short break, a joint brainstorming about how you can be involved and what potential benefits would be, shall take place.
Things to look at will be:
* the value of content objects
* semantic annotation and contextualization
* memory buoyancy, allowing mechanics to forget content over time
* utilization of open standards like CMIS, ODATA, Stanbol
ForgetIT – Some store to remember, some store to forget
With growing storage capacities and sinking storage prices, the paradigm of keeping everything is prevailing. However, keeping information accessible, useable and useful goes far beyond purely keeping things, especially in the long run, and entails expenses much larger than just the storage costs. This issue especially applies to content in Content Management Systems where we increasingly face the situation of creating, managing and storing (preserving) multimedia content, which we might never access again due to the pure volume of content.
To overcome these issues, we envision the concept of flexible managed forgetting for information that progressively ceases in importance and finally becomes obsolete as well as for redundant information. We will extend TYPO3 with preservation and forgetting. The forgetting will also reduce the user’s cognitive burden for past activities and information in TYPO3 but still allows access if needed. The same as our brain will retrieve details of our past when remembering and getting associations, the approach will provide such means.
Within the Seventh Framework Programme for Research (FP7) of the European Union the "ForgetIT" project strives to build a solution for the mentioned problems. The project has a scope of 3 years and TYPO3 has been selected as CMS to build upon as it is Open Source Software and has an open and active community.
An overview of the project can be found on the projects website (of course made with TYPO3): http://www.forgetit-project.eu/
This is an updated short presentation on the TYPO3 Association. It shoud give you an intro on the facts and figures and on our goals and activities. Feel free to contact me with questions and corrections.
The Future of CMS
This are very rough slides and a very loose collection of my thoughts, observations and advice around the future of content management systems.
Certainly they are not imperative or analysing all details in depth.
This slides have been presented at TYPO3 Université 2013 in Annecy France.
Olivier Dobberkau June 2013
Digital dark age - Are we doing enough to preserve our website heritage?Olivier Dobberkau
While creating web sites we often see their lifespan only for up to 3 to 5 years. With every relaunch
and overhaul we are confronted with content migration and short term motives to delete maybe
valuable content. On the other hand what is the value of our content? Can we assess it
meaningfully? Do we really know in which context it is used?
Scientist stated that where as we are producing more and more digital artifacts we fail to see that
we are not keeping an eye on preserving it in a manner that will enable us to find and use it in more
that a few years in the future.
This talk will introduce you the aspects of digital preservation with a special look on how TYPO3 is
preparing to help it users to create a digital heritage.
This Talk is part of the "Concise Preservation by combining Managed Forgetting and
Contextualized Remembering" Project ForgetIT. The ForgetIT project is funded by the EC within the
7th Framework Programme under the objective "Digital Preservation" (GA 600826).
3. IngoRenner
TYPO3 Core Developer
Release Manager TYPO3 4.2
TYPO3 Google Summer of Code Admin
- Caution -
Software Architect, Senior Developer TYPO3-Evangelist
dkd Internet Service GmbH
4. OlivierDobberkau
aka TYPO3 Reverend Neverend
Geschäftsführer
dkd Internet Service GmbH
Research and Development @ dkd
Kandidat für das BCC - Caution -
der TYPO3 Association TYPO3-Evangelist
8. Wiefunktioniert‘s
REST ähnliches Interface
Indexieren per POST
Suchen per GET
Ergebnisse als XML, JSON, PHP
Bibliotheken
SolrPhpClient
php5_solr PECL Package
9. SolrIndex
Solr Index
Document Field Field Field Field
Document Field Field Field Field
Document Field Field Field Field Field
Document Field Field
Document Field Field Field Field
13. IndexedSearch
Indexed Search seit TYPO3 Version 3.x an Board
Frontend Indexierung beim Seitenaufruf
Suche in Seiten und einigen Dateien möglich
Berücksichtigt Sprachen und FE-Gruppen
14. IndexedSearch
Index in der Datenbank
Problematisches Verhalten bei großen Webseiten
Langsam
Keine Sortierung
un exible Templates
OK für kleinere Websites
16. Geschichte
Prototyp im Sommer 2008
Kick-off Februar 2009
Erstes Ziel „Acts like Indexed Search“
Early Access Program (EAP)
T3CON September 2009 Version 1.0
Aktuelle Version 1.3 (public Version)
18. Herausforderungen
Seiten Rendering in TYPO3
Berücksichtigung von Zugriffsrechten
Dateiindexierung
Einfaches Setup für Nicht-Java Leute
Integration und Zugriff auf Solr
19. Lösungen
Record Monitor und Indexing Queue
Eigenes Solr Query Parser Plugin
Integration von Apache Tika
Voll automatisiertes bash Install Script
SolrPhpClient und JSON Response Writer
20. Features
Facettierte Suche
Umfangreiche Dateiindexierung
Multi-language Support
Fehlerkorrektur / Did you mean
Suchwort Highlighting
Autocomplete / Suggestions
Berücksichtigung von Zugriffsrechten
24. TYPO3Tabellen
TYPO3 besteht nicht nur aus Seiten
News, FAQ, Events, ...
Gut: Eigene Indexer Erweiterung für FE
Besser: Index Queue
Record Monitor
Garbage Collection
Keine Eigenentwicklung nötig
25. Mars
Der rote Planet.
Entfernung zur Sonne 228.000.000 Kilometer.
Path nder sendet erste Bilder am 4. Juli 1997.
Leckerer Schokoladen-Riegel.
Kriegsgott im antiken Italien.
27. Datenbanken
Anwendungsfall: Daten aus Datenbanken
Datenbanken nicht für Suche optimiert
Apache Solr prädestiniert für Suche
Data Import Handler (DIH)
JDBC
Dateilisten
URL zum Beispiel für RSS Feeds, XML
29. Saturn
Geil ist Geil.
Abstand von Erde 1.430.000.000 Kilometer.
96% der Atmosphäre aus Wasserstoff.
Saturn-Ringe ø 1.000.000 Kilometer.
1610 entdeckte Galilei die Ringe und deutete diese
als Henkel
Gott des Ackerbaus.
31. CSVDaten
Wenn alle Stricke reißen: CSV
CSV Update Request Handler
Einfache Kon guration über URL Parameter
Indexierung per POST
Entfernte oder Lokale CSV Dateien
Keine Transformation oder Boosting möglich
Gut für Prototyping!
32. Venus
Entfernung zur Sonne 108.000.000 Kilometer.
Hellstes Objekt am Himmel nach dem Mond.
Göttin der Liebe und des erotischen Verlangens.
437°C im Schatten.
34. AndereWebsites
Jeder hat da sein kleines dunkles Geheimnis
Nicht alle Websites mit CMS Systemen gebaut
Kein Zugriff auf Daten möglich
Nutch Crawler
Crawlt Website ab
Indexiert in eigenen Index
Export zu Apache Solr mittels Mapping Funktion
35. Jupiter
Höchste Gottheit der römischen Mythologie.
Entfernung 778.000.000 Kilometer zur Sonne.
Tag dauert nur 9 Stunden und 55 Minuten.
ø Temperatur -108 C.
Heimatplanet von Fred.
36. Jupiter
Daten
banke - CSV
n
Webs
ites
Tabell
en
Dateie
n
37. Dateien
Word und andere Grausamkeiten
Volltext und unstrukturierte Daten
Meta Informationen in Bildern und Filmen
Apache Tika - Daten Extraktions Toolkit
Meta Daten
Text
Spracherkennung
38. Dateien
Tika ist in Apache Solr als eigener Handler
vorhanden
Erkennt über 1200 Dateitypen
Kann über 600 davon lesen
Of ce Formate inkl. OOXML, ODF und PDF
Audio, Bilder und Video
E-Mails im mbox Format
39. dkd
design
kommunikation
development
sagtdanke.