Open Source Search Engines
Veit Schiele
cusy GmbH, Berlin
de.slideshare.net/cusyio/open-source-search-engines
Veit Schiele
• Gründer und Geschäftsführer 

der Cusy GmbH, einer
datenschutzkonformen Entwicklungs-
und Betriebsplattform
• Enge Zusammenarbeit mit der
Gesellschaft für Datenschutz und
Datensicherheit e.V. (GDD)
you + me + cusy
Agenda
• Evaluation
• Search Appliances
• Third-party hosted services
• Self-hosted services
• Anbindung von Drittsystemen
• collective.elasticindex
• Zusammenfassung und Diskussion
Alternative Search Appliance
Alternative Search Appliance
MaxxCAT Mindbreeze
InSpire
Thunderstone
Search Appliances
Alternative Search Appliances
Pros und Cons

+ Einfach und schnell bereitgestellt
+ Geringe Wartungs- und Pflegeaufwände
- Keine Redundanz, kein Backup
- Häufig sind Konfigurationsänderungen 

nur produktiv zu testen
- Monitoring der Lizenzauslastung erforderlich
Third-party hosted services
Third-party hosted services
Beispiele
SearchBloxN2SM OSS Elastic Cloud
Third-party hosted services
Third-party hosted services
Pros und Cons

+ Einfach und schnell bereitgestellt für öffentlich
zugängliche Informationen
+ Keine Wartungs- und Pflegeaufwände
- Einbindung von internen Services, Dateisystemen etc.
schwierig bis unmöglich
- Monitoring der Lizenzauslastung erforderlich
Self-hosted services
Self-hosted services
Beispiele
FessOpenSearchServer Elastic Stack
Self-hosted services
Self-hosted services
Pros und Cons

+ Einbindung von internen Services, Dateisystemen etc.
möglich
- Erhöhte Aufwände in Installation, Konfiguration und
Pflege
- Erweiterbar, wenn auch meist mit erheblichem
Aufwand
Self-hosted services
1. Suchmaschine auf Basis
von Apache Lucene
1. Elasticsearch
2. Solr
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:
Self-hosted services
2. Crawler

Hierfür bieten sich z.B. 

folgende Lösungen an:

1. Scrapy
1. scrapy-elasticsearch
2. Apache Nutch
3. Elasticsearch River Web
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:

Anbindung von Drittsystemen
Self-hosted services: Enhancements
z.B. mit Apache ManifoldCF
• Microsoft Sharepoint
• EMC Documentum
• DropBox
• RSS-Feeds
• E-Mail
…
Anbindung von Drittsystemen
Self-hosted services: Enhancements
oder für Elasticsearch 5.2
• FS Crawler
• IMAP/POP3/Mail importer
• …
• s.a. Elasticsearch Plugins
and Integrations
Anbindung von Drittsystemen
Self-hosted services: Enhancements
-Pack:
• Security (vorm. Shield)
• Alerting (vorm. Watcher)
• Monitoring (vorm. Marvel)
• Reporting
• Graph
• Machine Learning
Beispiel: Fraunhofer ISE – 1. Indizierung
Fraunhofer ISE – 1. Indizierung
• Durchsuchen verschiedener Quellen
• Projekt-Websites
• Aufgabenverwaltung
• Dateisystem
• …
• Berechtigungen indizieren
Beispiel: Fraunhofer ISE – 2. Datenhaltung
Fraunhofer ISE – 2. Datenhaltung
• Jedes Repository besitzt eigenes
Datenmodell
• Gemeinsame Abfragen über
Wildcards
• Aliasses / Pipelines
Beispiel: Fraunhofer ISE – 3. Sicherheit
Fraunhofer ISE – 3. Autorisierung
• Jedes Repository besitzt eigenes
Authorisierungsmodell
• Informationen z.T. aus dem
Certification Authority Server
• Security Proxy überprüft
Autorisierung vor dem Ausliefern
Completeness of Vision
AbilitytoExecute
As of August 2015
Challangers
Niche Players
Leaders
Visionaries
LucidworksLucidworks
Expert System
Recommind
BA Insight
IBM
IHS
Coveo
Sinequa
HP
Mindbreeze
Google
Dassault Systèmes
Attivio
Lexmark
Squiz
Positionierung
Gartner. Magic Quadrant
What we can do for you
What we can do for you
• datenschutzkonform Hosten 

auf der Cusy-Plattform
• Installation, Wartung und Pflege 

auf ihren Maschinen
• Beratung, Anpassung und individuelle
Weiterentwicklung
Kontakt
www.cusy.io/veit
info@cusy.io
@cusyio
+CusyIo
Bildnachweise
• Portrait; Ingo Kniest
• Icons; André Henze; © Cusy GmbH
• Michael Gernhardt in space during STS-69 in 1995; PUBLIC DOMAIN: NASA

Opensource Search Engines

  • 1.
    Open Source SearchEngines Veit Schiele cusy GmbH, Berlin de.slideshare.net/cusyio/open-source-search-engines
  • 2.
    Veit Schiele • Gründerund Geschäftsführer 
 der Cusy GmbH, einer datenschutzkonformen Entwicklungs- und Betriebsplattform • Enge Zusammenarbeit mit der Gesellschaft für Datenschutz und Datensicherheit e.V. (GDD) you + me + cusy
  • 3.
    Agenda • Evaluation • SearchAppliances • Third-party hosted services • Self-hosted services • Anbindung von Drittsystemen • collective.elasticindex • Zusammenfassung und Diskussion
  • 4.
    Alternative Search Appliance AlternativeSearch Appliance MaxxCAT Mindbreeze InSpire Thunderstone
  • 5.
    Search Appliances Alternative SearchAppliances Pros und Cons
 + Einfach und schnell bereitgestellt + Geringe Wartungs- und Pflegeaufwände - Keine Redundanz, kein Backup - Häufig sind Konfigurationsänderungen 
 nur produktiv zu testen - Monitoring der Lizenzauslastung erforderlich
  • 6.
    Third-party hosted services Third-partyhosted services Beispiele SearchBloxN2SM OSS Elastic Cloud
  • 7.
    Third-party hosted services Third-partyhosted services Pros und Cons
 + Einfach und schnell bereitgestellt für öffentlich zugängliche Informationen + Keine Wartungs- und Pflegeaufwände - Einbindung von internen Services, Dateisystemen etc. schwierig bis unmöglich - Monitoring der Lizenzauslastung erforderlich
  • 8.
  • 9.
    Self-hosted services Self-hosted services Prosund Cons
 + Einbindung von internen Services, Dateisystemen etc. möglich - Erhöhte Aufwände in Installation, Konfiguration und Pflege - Erweiterbar, wenn auch meist mit erheblichem Aufwand
  • 10.
    Self-hosted services 1. Suchmaschineauf Basis von Apache Lucene 1. Elasticsearch 2. Solr Search Appliances bestehen im Wesentlichen aus zwei Komponenten:
  • 11.
    Self-hosted services 2. Crawler
 Hierfürbieten sich z.B. 
 folgende Lösungen an:
 1. Scrapy 1. scrapy-elasticsearch 2. Apache Nutch 3. Elasticsearch River Web Search Appliances bestehen im Wesentlichen aus zwei Komponenten:

  • 12.
    Anbindung von Drittsystemen Self-hostedservices: Enhancements z.B. mit Apache ManifoldCF • Microsoft Sharepoint • EMC Documentum • DropBox • RSS-Feeds • E-Mail …
  • 13.
    Anbindung von Drittsystemen Self-hostedservices: Enhancements oder für Elasticsearch 5.2 • FS Crawler • IMAP/POP3/Mail importer • … • s.a. Elasticsearch Plugins and Integrations
  • 14.
    Anbindung von Drittsystemen Self-hostedservices: Enhancements -Pack: • Security (vorm. Shield) • Alerting (vorm. Watcher) • Monitoring (vorm. Marvel) • Reporting • Graph • Machine Learning
  • 15.
    Beispiel: Fraunhofer ISE– 1. Indizierung Fraunhofer ISE – 1. Indizierung • Durchsuchen verschiedener Quellen • Projekt-Websites • Aufgabenverwaltung • Dateisystem • … • Berechtigungen indizieren
  • 16.
    Beispiel: Fraunhofer ISE– 2. Datenhaltung Fraunhofer ISE – 2. Datenhaltung • Jedes Repository besitzt eigenes Datenmodell • Gemeinsame Abfragen über Wildcards • Aliasses / Pipelines
  • 17.
    Beispiel: Fraunhofer ISE– 3. Sicherheit Fraunhofer ISE – 3. Autorisierung • Jedes Repository besitzt eigenes Authorisierungsmodell • Informationen z.T. aus dem Certification Authority Server • Security Proxy überprüft Autorisierung vor dem Ausliefern
  • 18.
    Completeness of Vision AbilitytoExecute Asof August 2015 Challangers Niche Players Leaders Visionaries LucidworksLucidworks Expert System Recommind BA Insight IBM IHS Coveo Sinequa HP Mindbreeze Google Dassault Systèmes Attivio Lexmark Squiz Positionierung Gartner. Magic Quadrant
  • 19.
    What we cando for you What we can do for you • datenschutzkonform Hosten 
 auf der Cusy-Plattform • Installation, Wartung und Pflege 
 auf ihren Maschinen • Beratung, Anpassung und individuelle Weiterentwicklung
  • 20.
  • 21.
    Bildnachweise • Portrait; IngoKniest • Icons; André Henze; © Cusy GmbH • Michael Gernhardt in space during STS-69 in 1995; PUBLIC DOMAIN: NASA