SlideShare ist ein Scribd-Unternehmen logo
PasDas Summit 2016
Thomas Kurz
2016/10/04
Passau, Deutschland
Suche – ein effizientes Mittel zur
Datenintegration
Redlink wurde 2013 gegündet und hat
seinen Sitz in , Österreich.SALZBURG
SuchlösungenTextanalyse Apps
Daten verstehen Daten organisieren Daten nutzen
Kunden & Partner
04/36
"We are drowning in information and starved for knowledge."
John Naisbitt
Suche als effizienter, zentraler Zugang zu Informationen und Daten
• Digitale Inhalte sind immer und überall abrufbar
• Inhalte sind oft unstrukturiert
• Information sind über Personen, Systeme und
Dokumente verteilt
Suche als Informationsteleskop
Contextualisierte Suchen erlauben unterschiedliche (spezielle)
Blickwinkel auf Daten.
Was verstehen wir heute unter Suche und wo
geht die Reise hin ?
Wo und wie kann Suchtechnology die integrierte
Sicht auf Daten verbessern ?
Wie kann man das mit Open Source Software
umsetzen ?
Roadmap
Suche – State of the Art and beyond
Andrei Broder, Distinguished Scientist @Google,World Wide Web Conference, May 2015
Basic Information Retrieval
Basic Information Retrieval
• Fulltext Search
• Boolean Operators
• FieldTypes / Processing
• Weighting, Scoring
Add-ons:
• Synonyms / ControlledVocabularies
• Spellchecking
• Complex Functions (grouping, joining)
• Boosting
• Facetting
• Filtering
Question Answering and
Information Supply Retrieval
Question Answering and
Information Supply Retrieval
Question Answering and
Information Supply Retrieval
Question Answering and
Information Supply Retrieval
• Curated Information Resources (Knowledge Graph)
• Information / Data Aggregation
• Question Patterns / Natural Language Processing
• Answering Patterns / InformationTemplates
• Speech toText Components
• Multilinguality
• Personalisation
Assistance
Goal Completion
New appointment in Calendar
Book a Flight
Book a Hotel
Set Alarm Clock
Call aTaxi
Book aTable for Lunch
Alert delays
Buy a present
Eine integrierte Sicht auf Daten und
Informationen
Mike leitet einen Copy Shop mit 5 festen
Mitarbeitern und 10 studentischen Aushilfen.
Er benutzt ein CRM System zur Kunden-
verwaltung, Email zur Kommunikation, ein
Erfassungs- und Abrechnungssystem für
seine Aufträge und ein Filesharing
System zur Datenverwaltung.
Beispiel 1: Mike's Copy Shop
Beispiel 1: Mike's Copy Shop
John Doe erkundigt sich nach einem Auftrag.
Beispiel 1: Mike's Copy Shop
Jane verschafft sich eine Kunden-Überblick.
Beispiel 1: Mike's Copy Shop
Ziel: integrierte Suche durch Datenverknüpfung
• Sammeln der Daten (inkl. Zugriffsrechte)
• Integration der verschiedenen Daten durchVerlinkung (z.B.
über Entitäten) mittel genormter Schemen
• Aggregation gleicher Daten aus verschiedenen
Applikationen (Matching)
• Evtl. Metadaten erheben (z.B. pagerank)
• Zentraler, effizienter Zugriff durch Indizierung
02/36
Beispiel 1I: Smart Customer Support
Die Deutsche Bahn betreibt mit dem
"Reisebuddy" einen Concierge Service rund
um dasThema Reise.Anfragen werden
vom Kunden per SMS/Messenger gestellt
und von Servicemitarbeitern bearbeitet.
Diese nutzen für die benötigten
Informationen interne und
externe Quellsysteme.
02/36
Beispiel 1I: Smart Customer Support
02/36
Beispiel 1I: Smart Customer Support
02/36
Beispiel 1I: Smart Customer Support
02/36
Beispiel 1I: Smart Customer Support
Ziel: integrierte Suche durch Klassifizierung und
Verteilung auf eine Menge von Endpunkten
• Klassifizieren der Anfrage (z.B. Reiseanfrage)
• Extraktion such-relevanter Entitäten (Information Units)
• Aufbau der Anfrage
• Evtl.Aggregation und Gewichtung
• Generieren der Antwort
Lösungen mit Open Source
Software
Semantic Content Management 01/02
The Redlink Basic Components
Semantic Content Management 15/36
• Qualität der Software steigt
• Qualität der Dokumentation
steigt
• Manpower kann drastisch steigen
• Offene Libraries steigern Qualität
und senken Entwicklungskosten
• Produkt wird besser
wahrgenommen
• Marketing Kosten können sinken
• Geringeren Einfluss auf Roadmap und
Entwicklungsziele
• keine SLAs bei Fremdsoftware
• Verlust von Kontrolle und Einzigartigkeit
• Keine Garantie (die Community
bestimmt)
• Overhead (Community Building,
Licensing, usw.)
• evtl. Einschränkungen durch
Lizenzrechte
Warum Open Source ?
Pros Cons
Semantic Content Management 16/36
• Read-Write Linked Data
• Triple Store mitVersionierung und Reasoning
• SPARQL und LDPath Anfragesupport
• Transparentes Linked Data Caching
The Open Platform for Linked Data
http://marmotta.apache.org/
17/36
• Framework für Semantic Enhancement
• Natural Language Processing und Entity Recognition
• Mehrsprachigkeit
• Klassifikation und Sentiment Analyse
http://stanbol.apache.org
TheToolbox for Semantic Lifting
Semantic Content Management 18/36
• Apache Lucene basiertes Suchframework
• Mehrsprachigkeit
• Hoch skalierbar (Solr cloud) und ultra schnell
• Hoch konfigurierbar
http://lucene.apache.org/solr/
The highgly scalable Search Server
Semantic Content Management 18/36
Andere Komponenten
ApacheTinkerPop™
...
Beispiel 1: Mike's Copy Shop
Beispiel 1: Mike's Copy Shop
Beispiel 1I: Smart Customer Support
Enitity Extraction
Classification
Query Specific Models
• Attribute
• Vokabulare
• Negation
• Contextual Entities
Take aways
Suche bietet heute mehr als klassisches
Information Retrieval.
Suche ist ein gutes Mittel um eine integrierte
Sicht auf Daten zu erhalten.
Natürlichsprachliche Eingabe ist State of the Art.
Open Source Software kann viele notwendige
Schritte sehr gut abdecken.
are
you
ready
to make sense
of your data?
thomas.kurz@redlink.co
Vielen Dank für die Aufmerksamkeit !

Weitere ähnliche Inhalte

Andere mochten auch

Tollos 2015 E-Planning Guide
Tollos 2015 E-Planning GuideTollos 2015 E-Planning Guide
Tollos 2015 E-Planning Guide
Karen Mullervy
 
Revista Mercadoindustrial.es Nº 96 Septiembre 2015
Revista Mercadoindustrial.es Nº 96 Septiembre 2015Revista Mercadoindustrial.es Nº 96 Septiembre 2015
Revista Mercadoindustrial.es Nº 96 Septiembre 2015
Mercadoindustrial Revista
 
IMBIP - AulaOpen - Imagen 2
IMBIP - AulaOpen - Imagen 2IMBIP - AulaOpen - Imagen 2
IMBIP - AulaOpen - Imagen 2
informediabyinforpro
 
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
AU INCUBATOR
 
CIRRICULUM VITAE new
CIRRICULUM VITAE newCIRRICULUM VITAE new
CIRRICULUM VITAE new
zahid shaikh
 
Noticia exames
Noticia examesNoticia exames
Noticia exames
Douglas Rezende Marques
 
MiPro Business Intelligence Practice
MiPro Business Intelligence PracticeMiPro Business Intelligence Practice
MiPro Business Intelligence Practice
larryzagata
 
Final Year Project - Observation and Characterisation of Exoplanets
Final Year Project - Observation and Characterisation of ExoplanetsFinal Year Project - Observation and Characterisation of Exoplanets
Final Year Project - Observation and Characterisation of Exoplanets
Lucy Stickland
 
Plaza Mayor, Madrid España
Plaza Mayor, Madrid EspañaPlaza Mayor, Madrid España
Plaza Mayor, Madrid España
alejandrams
 
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
Alonso Cano Revista Andaluza de Arte
 
Unified Communications
Unified CommunicationsUnified Communications
Unified Communications
James Sutter
 
TPS PPT
TPS PPTTPS PPT
TPS PPT
Tabrez Sayed
 
Portfolio Atualizado - André Alba Freire 2014
Portfolio Atualizado - André Alba Freire 2014Portfolio Atualizado - André Alba Freire 2014
Portfolio Atualizado - André Alba Freire 2014
André Alba
 
Deportes en colombia
Deportes en colombiaDeportes en colombia
Deportes en colombia
Bugster18
 
Tecnicas de estadistica avanzada atv3
Tecnicas de estadistica avanzada atv3Tecnicas de estadistica avanzada atv3
Tecnicas de estadistica avanzada atv3
Juan Brito
 
12 clase de psicoterapias.ppt ultimo 2016 plus
12 clase de  psicoterapias.ppt ultimo 2016 plus12 clase de  psicoterapias.ppt ultimo 2016 plus
12 clase de psicoterapias.ppt ultimo 2016 plus
Neils Jean Pol Loayza Delgado
 
Gold Club 50
Gold Club 50Gold Club 50
Gold Club 50
yancedc
 
Orbit Research Associates Private Limited, New Delhi, Analytical Instruments
Orbit Research Associates Private Limited, New Delhi, Analytical InstrumentsOrbit Research Associates Private Limited, New Delhi, Analytical Instruments
Orbit Research Associates Private Limited, New Delhi, Analytical Instruments
IndiaMART InterMESH Limited
 
Seres Osc..
Seres Osc..Seres Osc..
Seres Osc..
Gustavo Higuera
 
La presentacion del señor
La presentacion del señorLa presentacion del señor
La presentacion del señor
Arq. Roberto Saldivar Olague
 

Andere mochten auch (20)

Tollos 2015 E-Planning Guide
Tollos 2015 E-Planning GuideTollos 2015 E-Planning Guide
Tollos 2015 E-Planning Guide
 
Revista Mercadoindustrial.es Nº 96 Septiembre 2015
Revista Mercadoindustrial.es Nº 96 Septiembre 2015Revista Mercadoindustrial.es Nº 96 Septiembre 2015
Revista Mercadoindustrial.es Nº 96 Septiembre 2015
 
IMBIP - AulaOpen - Imagen 2
IMBIP - AulaOpen - Imagen 2IMBIP - AulaOpen - Imagen 2
IMBIP - AulaOpen - Imagen 2
 
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
STUDENTERVÆKSTHUS AARHUS 13 Januar 2016 Beskyt din ide af Peter Sørensen v. P...
 
CIRRICULUM VITAE new
CIRRICULUM VITAE newCIRRICULUM VITAE new
CIRRICULUM VITAE new
 
Noticia exames
Noticia examesNoticia exames
Noticia exames
 
MiPro Business Intelligence Practice
MiPro Business Intelligence PracticeMiPro Business Intelligence Practice
MiPro Business Intelligence Practice
 
Final Year Project - Observation and Characterisation of Exoplanets
Final Year Project - Observation and Characterisation of ExoplanetsFinal Year Project - Observation and Characterisation of Exoplanets
Final Year Project - Observation and Characterisation of Exoplanets
 
Plaza Mayor, Madrid España
Plaza Mayor, Madrid EspañaPlaza Mayor, Madrid España
Plaza Mayor, Madrid España
 
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
Alonso Cano Revista Andaluza de Arte, nº14 (3º trimestre, 2007)
 
Unified Communications
Unified CommunicationsUnified Communications
Unified Communications
 
TPS PPT
TPS PPTTPS PPT
TPS PPT
 
Portfolio Atualizado - André Alba Freire 2014
Portfolio Atualizado - André Alba Freire 2014Portfolio Atualizado - André Alba Freire 2014
Portfolio Atualizado - André Alba Freire 2014
 
Deportes en colombia
Deportes en colombiaDeportes en colombia
Deportes en colombia
 
Tecnicas de estadistica avanzada atv3
Tecnicas de estadistica avanzada atv3Tecnicas de estadistica avanzada atv3
Tecnicas de estadistica avanzada atv3
 
12 clase de psicoterapias.ppt ultimo 2016 plus
12 clase de  psicoterapias.ppt ultimo 2016 plus12 clase de  psicoterapias.ppt ultimo 2016 plus
12 clase de psicoterapias.ppt ultimo 2016 plus
 
Gold Club 50
Gold Club 50Gold Club 50
Gold Club 50
 
Orbit Research Associates Private Limited, New Delhi, Analytical Instruments
Orbit Research Associates Private Limited, New Delhi, Analytical InstrumentsOrbit Research Associates Private Limited, New Delhi, Analytical Instruments
Orbit Research Associates Private Limited, New Delhi, Analytical Instruments
 
Seres Osc..
Seres Osc..Seres Osc..
Seres Osc..
 
La presentacion del señor
La presentacion del señorLa presentacion del señor
La presentacion del señor
 

Ähnlich wie Suche ein effizientes Mittel zur Datenintegration

ODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a ServiceODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a Service
Danube University Krems, Centre for E-Governance
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
B-S-S Business Software Solutions GmbH
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
Georg Blum
 
effimag präsentation 05 short
effimag präsentation 05 shorteffimag präsentation 05 short
effimag präsentation 05 short
Brigitte Ilsanker
 
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas BerthWerbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at Summit
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carte
David Schneider
 
Automatische Klassifizierung macht SharePoint-Inhalte transparent
Automatische Klassifizierung macht SharePoint-Inhalte transparentAutomatische Klassifizierung macht SharePoint-Inhalte transparent
Automatische Klassifizierung macht SharePoint-Inhalte transparent
bhoeck
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
OGD-DACHLI Konferenzreihe
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
Harald Erb
 
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
SHI Search | Analytics | Big Data
 
Bluecue Event - Collaboration Monitoring (Analytics)
Bluecue Event - Collaboration Monitoring (Analytics)Bluecue Event - Collaboration Monitoring (Analytics)
Bluecue Event - Collaboration Monitoring (Analytics)
Christoph Adler
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
Georg Rehm
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
Semantic Web Company
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BARC GmbH
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
Benedikt Köhler
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
Eduvision Ausbildungen
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
Comsysto Reply GmbH
 
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
DataValueTalk
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)
Praxistage
 

Ähnlich wie Suche ein effizientes Mittel zur Datenintegration (20)

Effimag präsentation05
Effimag präsentation05Effimag präsentation05
Effimag präsentation05
 
ODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a ServiceODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a Service
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
 
effimag präsentation 05 short
effimag präsentation 05 shorteffimag präsentation 05 short
effimag präsentation 05 short
 
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas BerthWerbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carte
 
Automatische Klassifizierung macht SharePoint-Inhalte transparent
Automatische Klassifizierung macht SharePoint-Inhalte transparentAutomatische Klassifizierung macht SharePoint-Inhalte transparent
Automatische Klassifizierung macht SharePoint-Inhalte transparent
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
Neue Potentiale durch Recommendations erschliessen und Conversions steigern (...
 
Bluecue Event - Collaboration Monitoring (Analytics)
Bluecue Event - Collaboration Monitoring (Analytics)Bluecue Event - Collaboration Monitoring (Analytics)
Bluecue Event - Collaboration Monitoring (Analytics)
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)
 

Suche ein effizientes Mittel zur Datenintegration

  • 1. PasDas Summit 2016 Thomas Kurz 2016/10/04 Passau, Deutschland Suche – ein effizientes Mittel zur Datenintegration
  • 2. Redlink wurde 2013 gegündet und hat seinen Sitz in , Österreich.SALZBURG SuchlösungenTextanalyse Apps Daten verstehen Daten organisieren Daten nutzen
  • 4. 04/36 "We are drowning in information and starved for knowledge." John Naisbitt Suche als effizienter, zentraler Zugang zu Informationen und Daten • Digitale Inhalte sind immer und überall abrufbar • Inhalte sind oft unstrukturiert • Information sind über Personen, Systeme und Dokumente verteilt
  • 5. Suche als Informationsteleskop Contextualisierte Suchen erlauben unterschiedliche (spezielle) Blickwinkel auf Daten.
  • 6. Was verstehen wir heute unter Suche und wo geht die Reise hin ? Wo und wie kann Suchtechnology die integrierte Sicht auf Daten verbessern ? Wie kann man das mit Open Source Software umsetzen ? Roadmap
  • 7. Suche – State of the Art and beyond
  • 8. Andrei Broder, Distinguished Scientist @Google,World Wide Web Conference, May 2015
  • 10. Basic Information Retrieval • Fulltext Search • Boolean Operators • FieldTypes / Processing • Weighting, Scoring Add-ons: • Synonyms / ControlledVocabularies • Spellchecking • Complex Functions (grouping, joining) • Boosting • Facetting • Filtering
  • 14. Question Answering and Information Supply Retrieval • Curated Information Resources (Knowledge Graph) • Information / Data Aggregation • Question Patterns / Natural Language Processing • Answering Patterns / InformationTemplates • Speech toText Components • Multilinguality • Personalisation
  • 16. Goal Completion New appointment in Calendar Book a Flight Book a Hotel Set Alarm Clock Call aTaxi Book aTable for Lunch Alert delays Buy a present
  • 17. Eine integrierte Sicht auf Daten und Informationen
  • 18. Mike leitet einen Copy Shop mit 5 festen Mitarbeitern und 10 studentischen Aushilfen. Er benutzt ein CRM System zur Kunden- verwaltung, Email zur Kommunikation, ein Erfassungs- und Abrechnungssystem für seine Aufträge und ein Filesharing System zur Datenverwaltung. Beispiel 1: Mike's Copy Shop
  • 19. Beispiel 1: Mike's Copy Shop John Doe erkundigt sich nach einem Auftrag.
  • 20. Beispiel 1: Mike's Copy Shop Jane verschafft sich eine Kunden-Überblick.
  • 21. Beispiel 1: Mike's Copy Shop Ziel: integrierte Suche durch Datenverknüpfung • Sammeln der Daten (inkl. Zugriffsrechte) • Integration der verschiedenen Daten durchVerlinkung (z.B. über Entitäten) mittel genormter Schemen • Aggregation gleicher Daten aus verschiedenen Applikationen (Matching) • Evtl. Metadaten erheben (z.B. pagerank) • Zentraler, effizienter Zugriff durch Indizierung 02/36
  • 22. Beispiel 1I: Smart Customer Support Die Deutsche Bahn betreibt mit dem "Reisebuddy" einen Concierge Service rund um dasThema Reise.Anfragen werden vom Kunden per SMS/Messenger gestellt und von Servicemitarbeitern bearbeitet. Diese nutzen für die benötigten Informationen interne und externe Quellsysteme. 02/36
  • 23. Beispiel 1I: Smart Customer Support 02/36
  • 24. Beispiel 1I: Smart Customer Support 02/36
  • 25. Beispiel 1I: Smart Customer Support 02/36
  • 26. Beispiel 1I: Smart Customer Support Ziel: integrierte Suche durch Klassifizierung und Verteilung auf eine Menge von Endpunkten • Klassifizieren der Anfrage (z.B. Reiseanfrage) • Extraktion such-relevanter Entitäten (Information Units) • Aufbau der Anfrage • Evtl.Aggregation und Gewichtung • Generieren der Antwort
  • 27. Lösungen mit Open Source Software
  • 28. Semantic Content Management 01/02 The Redlink Basic Components Semantic Content Management 15/36
  • 29. • Qualität der Software steigt • Qualität der Dokumentation steigt • Manpower kann drastisch steigen • Offene Libraries steigern Qualität und senken Entwicklungskosten • Produkt wird besser wahrgenommen • Marketing Kosten können sinken • Geringeren Einfluss auf Roadmap und Entwicklungsziele • keine SLAs bei Fremdsoftware • Verlust von Kontrolle und Einzigartigkeit • Keine Garantie (die Community bestimmt) • Overhead (Community Building, Licensing, usw.) • evtl. Einschränkungen durch Lizenzrechte Warum Open Source ? Pros Cons
  • 30. Semantic Content Management 16/36 • Read-Write Linked Data • Triple Store mitVersionierung und Reasoning • SPARQL und LDPath Anfragesupport • Transparentes Linked Data Caching The Open Platform for Linked Data http://marmotta.apache.org/
  • 31. 17/36 • Framework für Semantic Enhancement • Natural Language Processing und Entity Recognition • Mehrsprachigkeit • Klassifikation und Sentiment Analyse http://stanbol.apache.org TheToolbox for Semantic Lifting
  • 32. Semantic Content Management 18/36 • Apache Lucene basiertes Suchframework • Mehrsprachigkeit • Hoch skalierbar (Solr cloud) und ultra schnell • Hoch konfigurierbar http://lucene.apache.org/solr/ The highgly scalable Search Server
  • 33. Semantic Content Management 18/36 Andere Komponenten ApacheTinkerPop™ ...
  • 34. Beispiel 1: Mike's Copy Shop
  • 35. Beispiel 1: Mike's Copy Shop
  • 36. Beispiel 1I: Smart Customer Support Enitity Extraction Classification Query Specific Models • Attribute • Vokabulare • Negation • Contextual Entities
  • 37. Take aways Suche bietet heute mehr als klassisches Information Retrieval. Suche ist ein gutes Mittel um eine integrierte Sicht auf Daten zu erhalten. Natürlichsprachliche Eingabe ist State of the Art. Open Source Software kann viele notwendige Schritte sehr gut abdecken.
  • 38. are you ready to make sense of your data? thomas.kurz@redlink.co Vielen Dank für die Aufmerksamkeit !