FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich

Verein FM Konferenz
Verein FM KonferenzVerein FM Konferenz
Suchstrategien
Dr. Martin Brändle, Dr. Volker Krambrich

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Über Martin: Als ...
Kontakt:	

mpbraendle@gmail.com	


•  FileMaker Entwickler 
–  denke ich in Datenstrukturen
–  entwickle ich für das Web (Custom Web Publishing, MVC-Ansatz)
•  Computational Chemist (Quantenchemie)
–  denke ich in Algorithmen
–  liess ich die CPUs während Tagen braten

•  Informationsspezialist NDS I+D (Chemieinformation) 
–  arbeite ich mit Daten in FileMaker und anderen Systemen
–  denke ich in Kategoriensystemen
–  denke ich in Symbolen, grafischen Strukturen, Topologien
–  arbeite ich oft mit anderen Informationssystemen als FileMaker
–  beschäftige ich mich mit Recherchefragen der Kunden und versuche sie
zu unterstützen
Dr. Martin Brändle, Dr. Volker Krambrich
FileMaker Konferenz 2013 Salzburg
Suchstrategien



www.filemaker-konferenz.com
Über Volker
• 
• 
• 
• 

Kontakt:	

v.krambrich@norsult.com	


Linguist und Informatiker, promoviert
FileMaker 12 Certified Developer
FileMaker Certified Trainer und Lehrer
Schwerpunkte: Prozessmodellierung, Custom Software, (Instant) Web
Publishing (auch HTML, XML, XSLT), Modellierung

•  FileMaker Re-Cycling — betagte Lösungen aufpeppen und in moderne
Programme überführen

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Programm
•  Wahr oder Falsch / Ja oder Nein / Schwarz oder Weiss
•  Textsuchen: Wie können wir Erfolg verbessern?
–  Query-Analyse
–  Stoppwörter
–  Unterstützte Suche
–  Meinen Sie?
•  Facettierung: Clustern und Verfeinern
•  Ähnlichkeit
•  Netzwerke
•  Mustererkennung: Fragmentierung
•  Schlussbetrachtung


Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Textsuchen klassisch

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Wie können wir den Endnutzer bei der
Recherche unterstützen?
•  Ausbildung und Support: Schulung, Training, Support
•  Technische Massnahmen
–  GUI: Simpel und logisch
–  Quickfind/Google-like 
•  Eine Suchzeile/mehrere Attribute gleichzeitig suchen
•  Suchfrage und Resultate auf einem Schirm
-  Nicht nur Search, sondern auch Browse
- Vorgegebene Einstiegspunkte oder Favoriten
- rasche Navigation zu nützlichen Resultaten
- Benutzer erhält Vorstellung, was in der Datenbank sein könnte
–  Optimierung der Suchfragen und -antworten

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Beispiel

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Optimierung der Suchfragen
•  Log der Suchfragen erstellen
–  Erfasst
•  Query
•  Zeitstempel
•  Suchtyp (einfach/fortgeschritten)
•  Sprache GUI
•  Anzahl Treffer pro gesuchter Tabelle
–  Abgeleitete Merkmale
•  Erfolg (1/0)
•  Anzahl Wörter
•  Anzahl Ziffern/Zahlen
•  Anteil Sonderzeichen (Operatoren, weitere)
•  Anteil Grossschreibung
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Implementation Suchschema (Beispiel CWP)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Analyse und Optimierung der Suchfragen
•  Projekt ACUEIL: Analyse von ca. 150‘000 Suchen 2005-2008 (2013: ca.
360‘000)
Ergebnis: Einfache Massnahmen: Filtern der Eingabe
•  Indizierende Sonderzeichen wie . , : ; & entfernen
•  Stoppwörter (bedeutungsarme Wörter) entfernen
an, and, das, de, der, of, on, the, und, ...
–  sinnvoll bei Suche in Texten mit natürlicher Sprache
–  nicht sinnvoll z.B. bei Personennamen (Lookup), Einzeldaten 
•  Übersetzung von Schlüsselbegriffen in Datenrepräsentation
(Erfassungsregeln) der DB
–  Beispiel: Volume, Volumes à Vol, calculations à calcs.
•  Filterung via Substitute(“ “ & text & “ “; [“ an “; “ “]; [“ and “; “ “]; ....)
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Optimierung der Daten (Antworten)
•  Ergebnis aus Analyse: Benutzer verwenden Copy & Paste

•  Beispiele von Eingaben
–  ARCHIV DER PHARMAZIE UND BERICHTE DER DEUTSCHEN
PHARMAZEUTISCHEN GESSELSCHAFT
–  ANGEWANDTE CHEMIE-INTERNATIONAL EDITION
•  Merkmale: Grossschreibung, Bindestrich, Falschschreibung
•  Herkunft: Science Citation Index (Web of Science)

•  Massnahme
–  Hinterlegung der „falschen“ Daten in einem zusätzlichen Feld („Fussnote“,
„Bemerkung“), das mitgesucht wird (konkret: 156 Titel)
–  Key-Value-Modell hilfreich


[sic!
]	


Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Sucherfolg vs. Anzahl Suchbegriffe

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Unterstützte Suchen

Tippfehler reduziert
Voransicht der Resultate
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Implementation
•  Bedingungen
–  Performance (Tippgeschwindigkeit)
–  Daten stammen aus mehreren Tabellen
–  Suchen und Aggregieren über mehrere Tabellen, Sortieren zu langsam
•  Lösung
–  Vorsortierte Tabelle (Präkoordination), ca. 100‘000 Strings
–  Periodischer Update (jährlich, Bereinigung und Konsolidierung der Daten)
•  Implementation
–  YUILibrary Autocomplete Widget
•  http://yuilibrary.com/yui/docs/autocomplete/
•  XML Datenquelle (FM PHP API)
•  Cache browserseitig
Dr. Martin 
Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Ambivalente/Unsinnige Fragen
•  Ambivalente Anfragen: zuviele Treffer (>100)
–  Science
–  Inorg Chem
–  Nature
–  Cell

•  Unsinnige Anfragen
–  falsch verstandenes Zitat: Bsp. ibid
–  Nicht Standard-Zeitschriftenabkürzungen, Bsp. JOMC, C
–  falsches Findmittel
•  Patente: U S P, Ger. Offen.
•  ganze Artikelreferenzen
•  chemische Verbindungsnamen
–  falsches Feld, Bsp. ISBN-Nummer in Titel etc.
•  Häufige Tippfehler, z.B. Hollemann, Göppel


Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Beispiel „Meinen Sie?“

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Meinen Sie?
•  à la Google
–  begrifforientiert: Alternativbegriff für eingegebenen Begriff
–  benötigt Index der Begriffe
–  benötigt Wortähnlichkeit/Silbentrenn-Algorithmus 

(z.B. Levenshtein-Distanz für Wortähnlichkeit)
–  teuer (CPU, Speicher)

•  à la FileMaker
–  resultatorientiert: zu Begriff wird Link zu richtigem Resultat oder
alternativer Lösungsweg vorgeschlagen
–  nutzt Fachkompetenz der Einrichtung 
–  wenige, ausgewählte Begriffe
–  billig

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Facettierung – Clustern und Verfeinern
•  Grundidee
–  Breit suchen
–  Statistische Analyse der Resultate nach vordefinierten Kategorien
•  Histogramm Attribute und Anzahl
–  Verfeinern durch Hinzufügen von Attributen zur Suchfrage

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Beispiel Facettierung (Apache Solr)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Beispiel Facettierung: Reaxys

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Demo

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Facettierung mit FileMaker Pro 12

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Facettierung ohne ExecuteSQL?
•  Möglicher Lösungsansatz mit Custom Functions
–  CustomList (Agnès Barouh) bzw. HyperList (Todd Geist)
•  Virtuelle Liste über Found Set
–  UniqueList (Agnès Barouh) 
–  Distribution (Bruce Robertson)
–  SortList (Agnès Barouh)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Demo Volker

Volker, da kannst du etwas zum
Einstieg zeigen.

Demonstrierst du uns Hyperlists?

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Case study: Contracts administration
Utrio	


Suchbegriff	


	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Case study: Contracts administration

Zusatztreffer	


	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Case study: Contracts administration

•  Kategorie	

•  Ergebnisanzeige	

•  Suchbegriff
wiederholen	


	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Case study: Contracts administration
•  suche in unbekanntem Feld
(Verfasser, Titel, Untertitel,
Kommentar etc.)
•  SuchKategorie erkennen
(Name; ISBN; Telefonnummer
etc.)
•  unscharf suchen: John oder Jon
•  Ergebnismenge begrenzen
•  Kategorisieren
•  Lösung zeigt angepasstes
fmSearch (Matt Navarre,
seedcode.com) im Einsatz
•  Live Demo, wenn Internet
hält…

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Case study: Contracts administration
Martin, das war der Übergang
zurück zu Dir...

…das sieht dir ähnlich!

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Ähnlichkeit

vom ! zum ~

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Attribut- und Textähnlichkeit
Ähnlichkeit zwischen zwei Attributmengen A, B

Ähnlichkeitsmasse

•  Jaccard-Koeffizient oder –Index

•  Tanimoto-Ähnlichkeit (für binäre Fingerprints)


•  Sørensen-Dice-Koeffizient oder –Index

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Demo

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Attribut/Wort-Index
•  Eigene Erzeugung
–  Extraktion Attribute/Wörter pro 

Datensatz
–  Stoppwortgefiltert
–  Variante: Nur unterschiedliche Wörter 

und Anzahl
–  Variante: Position(en) mitspeichern


•  Aktionen für Datensatzänderungen
–  Insert: Script (via Script Trigger)
–  Delete: Löschen via Beziehung
–  Performance: Problemlos, Aufwand linear, Script start-/stoppbar,
paralellisierbar

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Andere Sichtweise: Attribut-/Begriffsvektoren
•  Attribute/Begriffe spannen einen Vektor im n-dimensionalen Indexraum auf
•  Winkel zwischen zwei Vektoren ist Mass für Ähnlichkeit 



Skalarprodukt

Beispiel
•  Begriffe (chemical, 3764), (engineering, 5815), (kinetics 7931), (operations
11748), (unit 14728)
•  Vektor a: Unit Operations of Chemical Engineering (3764, 5815, 11748,
14728)
•  Vektor b: Chemical Engineering Kinetics (3764, 5815, 7931, 0)


cos φ = 0.67

•  Problem: Benötigt Inversen Index
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Inverser Index
•  Attribut/Begriff à Datensätze
•  Attributhäufigkeit 
•  Problematik: Inverser Index muss für jede Datensatzänderung (Insert,
Delete) nachgeführt werden
–  Insert: Existiert Wort bereits? à Record Count erhöhen, sonst einfügen
(via Script Trigger) 
–  Delete: nur mit Script. Record Count erniedrigen, bei 0 Wort löschen
–  Performance: x Suchen pro Datensatzänderung

•  Ersterzeugung, Varianten
–  Export (als XML), Gruppieren/Zählen mit XSLT, Reimport 
–  ExecuteSQL(”SELECT DISTINCT Wort, COUNT(DISTINCT Wort) FROM
WortIndex ORDER BY Wort”; ””; ””)
(Problem 2 GB-Limite)

Das überlassen wir den FileMaker-Software-Ingenieuren!
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Ähnlichkeitsverfahren: Problem Skalierung
Für alle Ähnlichkeitsverfahren gilt

•  Zwischen 2 Tabellen der Grösse n und m: 


s = n*m

 
 
 
(wenn n ≃ m à ∼n2)

•  Selbstähnlichkeit in Tabelle der Grösse n: 

s = ½ n * (n -1)

 
 
 
 
∼n2
•  Beispiel: Kleiner Bibliothekskatalog mit 80‘000 Einträgen, Selbstähnlichkeit

è 3.2 Milliarden Vergleiche


Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Lösungsansatz Skalierung
–  Hinzuziehen weiterer Kriterien für Reduktion Grösse Start- und
Vergleichsmenge
–  Rollendes Fenster: z.B. Zeit, Anzahl Indexbegriffe, ..
–  bei zeit-/personenabhängigen Daten: Gruppieren in Sessions
– Sessionlänge
– IP-Adresse
– Session-ID (Cookies)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Analyse Resultate
„Hat sich Aufwand gelohnt?“
•  7152 Titel prozessiert
•  Aufwand ca. 4.5 h
•  Effektiv: 1.39 Mio.
Berechnungen
•  Theoretisch: Ca. 25.5 Mio 572 Mio. Berechnungen

Gefunden
•  1167 Titel mit ≥1 verwandten
Titel(n) (16.3%)
•  1506 Paarkorrelationen
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

J(A,B)

# Paare

% Paare

1.00

780

51.8

0.95-1.00

0

0

0.90-0.95

25

1.7

0.85-0.90

66

4.4

0.8-0.85

132

8.8

0.75-0.80

164

10.9

0.70-0.75

143

9.5

0.65-0.70

72

4.8

0.60-0.65

124

8.2

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Analyse Performance (1)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Analyse Performance (2)

•  Durchschnittliche Berechnungszeit / Zyklus : ca. 10 ms
–  17 Scriptschritte (9 für Berechnung, 8 für Speichern Resultat)
–  3 ExecuteSQL-Befehle

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Netzwerke: Komplexe Zusammenhänge
entdecken
Nun wissen wir, wie ähnliche 

Dinge – noch aus demselben Bereich –
gefunden werden können.

Wie ist das mit Zusammenhängen
zwischen verschiedenen Domänen?

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...
–  Diabetes (Typ1) ist wachsende
Herausforderung
–  Das Problem wächst zu auch zu einem
Kostenproblem
–  In 2005 Dialyse in Finnland teurer als der
Jahresumsatz von Nokia (ca. 5,4 Mrd. €)
–  Forschungsauftrag: Was sind die
Ursachen
–  Ziel: Wie kann man vorbeugen
•  Ziel: Prognostizierbarkeit

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 2013 Salzburg
Salzburg
www.filemaker-konferenz.com
Mustererkennung

Siehst Du auch ein Muster?

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Demo DNA

•  4 Buchstaben für Nukleotide: 

C (Cytosin), G (Guanin), A (Adenin), T (Thymin)
•  Identifizierung von Teilsequenzen
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
n-Gramme (n-grams)
•  Zerlegung von Texten/Zeichenfolgen in Fragmente oder formale Worte der
Länge n



Beispiel: 3-Gramme von „FileMaker“

**f, *fi, fil, ile, lem, mak, ake, ker, er*, r**


•  evtl. mit Positionsindex
1_fil 2_ile 3_lem 4_mak 5_ake 6_ker 7_ke 8_r


•  evtl. gleitender Ausschnitt (Beispiel: Länge 6)
1 1_fil 2_ile 3_lem 4_mak 5_ake 6_ker

2 1_ile 2_lem 3_mak 4_ake 5_ker 6_ke

3 1_lem 2_mak 3_ake 4_ker 5_er 6_r 
Dr. Martin Brändle, Dr. Volker Krambrich
...

Suchstrategien


FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Identifizierung aller Teilsequenzen

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Diskussion n-Gramme
•  Vorteile
–  Sprachunabhängig
–  statistische Auswertung eines Textkorpus
–  Verteilung erlaubt Identifikation der Sprache
–  nicht gleich gut anwendbar auf alle natürlichen Sprachen
–  funktioniert auch bei verstmmeltn Textn (fehlertolerantes Retrieval)

•  Nachteil
–  Sprachen, die bei Flexion zu starker Formänderung neigen, bereiten
Probleme
–  Flexibilität wird mit hohem Aufwand erkauft

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Schlussbetrachtung
•  Inspiration holen von anderen Gebieten


Wolfgang G. Stock, Information Retrieval : Informationen suchen und finden, 


Oldenbourg Verlag, München, 2007


•  Datenrepräsentation und -suche bedingen sich gegenseitig
•  Komplexe Suchen (Ähnlichkeit, Mustererkennung) erfordern Aufwand
–  Präkoordinativ: Erzeugen von Fragmenten („Schnipseln“), Übersetzung
vom mehrdimensionalen in linearen Datenraum
–  Algorithmisch: Übersetzen der Suchfrage in FileMaker-Repräsentation
–  Postkoordinativ: Sammeln, Zusammenfassen, Aufbereiten der Resultate
•  Aufwand und Grenzen im Voraus abschätzen
–  Skalierung (Speicher, Performance)
–  Portierbarkeit der Methode

(Einzelbenutzer
Dr. Martin Brändle, Dr. Volker Krambrich
 à mehrere Benutzer, Client à Server, Client à Web)
FileMaker Konferenz 2013 Salzburg
Suchstrategien



www.filemaker-konferenz.com
Vielen Dank unseren Sponsoren

Danke für das Bewerten dieses Vortrages
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Appendix: Erweiterte Implementation

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
Appendix: Levenshtein-Distanz
•  Levenshtein-Distanz
–  Minimale Anzahl Operationen (Ersetzen,
Einfügen, Löschen eines Buchstabens), um
ein Wort in ein anderes zu überführen

•  Analyse von Benutzerkorrekturen
–  Tippfehler der Benutzer
–  Einsatz des SmartPill Plugins und 

der PHP-Funktion levenshtein() 

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.com
1 von 56

Recomendados

Fmk2013 datenmodelle krambrich-brändle (rev) von
Fmk2013 datenmodelle krambrich-brändle (rev)Fmk2013 datenmodelle krambrich-brändle (rev)
Fmk2013 datenmodelle krambrich-brändle (rev)Verein FM Konferenz
3.1K views62 Folien
FMK 2013, Gestaltung von Benutzeroberflächen, Karsten Risseeuw von
FMK 2013, Gestaltung von Benutzeroberflächen, Karsten RisseeuwFMK 2013, Gestaltung von Benutzeroberflächen, Karsten Risseeuw
FMK 2013, Gestaltung von Benutzeroberflächen, Karsten RisseeuwVerein FM Konferenz
2.3K views68 Folien
FMK2015: Beziehungen Mehr als Anker und Bojen by Volker Krambrich und Adam Au... von
FMK2015: Beziehungen Mehr als Anker und Bojen by Volker Krambrich und Adam Au...FMK2015: Beziehungen Mehr als Anker und Bojen by Volker Krambrich und Adam Au...
FMK2015: Beziehungen Mehr als Anker und Bojen by Volker Krambrich und Adam Au...Verein FM Konferenz
1.7K views17 Folien
Scala 4 Enterprise von
Scala 4 EnterpriseScala 4 Enterprise
Scala 4 Enterpriseadesso AG
887 views34 Folien
34 ester esther von
34 ester esther34 ester esther
34 ester estherTeresa Hernandez
694 views8 Folien
Prospekt vom Haus der Jugend "an den Großen Steinen" in Hessisch Lichtenau/Re... von
Prospekt vom Haus der Jugend "an den Großen Steinen" in Hessisch Lichtenau/Re...Prospekt vom Haus der Jugend "an den Großen Steinen" in Hessisch Lichtenau/Re...
Prospekt vom Haus der Jugend "an den Großen Steinen" in Hessisch Lichtenau/Re...hausderjugend
757 views16 Folien

Más contenido relacionado

Destacado

TPM-Lehrgang 2014 - Total Productice Maintenance von
TPM-Lehrgang 2014 - Total Productice MaintenanceTPM-Lehrgang 2014 - Total Productice Maintenance
TPM-Lehrgang 2014 - Total Productice Maintenancedankl+partner consulting gmbh
2.1K views16 Folien
Deutschland von
DeutschlandDeutschland
DeutschlandRosalía Santos
499 views17 Folien
De Lounge Chair van Eric Magnussen, bij HAGELE kantoormeubilair. von
De Lounge Chair van Eric Magnussen, bij HAGELE kantoormeubilair.De Lounge Chair van Eric Magnussen, bij HAGELE kantoormeubilair.
De Lounge Chair van Eric Magnussen, bij HAGELE kantoormeubilair.HAGELE kantoormeubilair
453 views9 Folien
10 gebote von
10 gebote10 gebote
10 geboteandreaspoeck
724 views11 Folien
Waorani bible new testament von
Waorani bible   new testamentWaorani bible   new testament
Waorani bible new testamentHolyBibles
894 views650 Folien
Daten fakten zum gesundheitswesen fopi status august 2013 von
Daten fakten zum gesundheitswesen fopi status august 2013Daten fakten zum gesundheitswesen fopi status august 2013
Daten fakten zum gesundheitswesen fopi status august 2013casatch
901 views84 Folien

Destacado(8)

Waorani bible new testament von HolyBibles
Waorani bible   new testamentWaorani bible   new testament
Waorani bible new testament
HolyBibles894 views
Daten fakten zum gesundheitswesen fopi status august 2013 von casatch
Daten fakten zum gesundheitswesen fopi status august 2013Daten fakten zum gesundheitswesen fopi status august 2013
Daten fakten zum gesundheitswesen fopi status august 2013
casatch901 views
Insectissima - Freude bringen an Weihnachten von Freekidstories
Insectissima - Freude bringen an WeihnachtenInsectissima - Freude bringen an Weihnachten
Insectissima - Freude bringen an Weihnachten
Freekidstories1.1K views
Portalserver Meets SOA: State of the Portal Art von adesso AG
Portalserver Meets SOA:  State of the Portal ArtPortalserver Meets SOA:  State of the Portal Art
Portalserver Meets SOA: State of the Portal Art
adesso AG1.1K views

Similar a FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich

FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ... von
FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...
FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...Verein FM Konferenz
1.1K views22 Folien
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl... von
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...Verein FM Konferenz
2.4K views12 Folien
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten … von
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …Verein FM Konferenz
7.8K views43 Folien
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang Wunderlich von
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang WunderlichFMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang Wunderlich
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang WunderlichVerein FM Konferenz
2.1K views23 Folien
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009 von
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009Wolfgang Kraus
998 views22 Folien
Einführung in die semantische Suche in Massendaten von
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
1.5K views73 Folien

Similar a FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich(20)

FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ... von Verein FM Konferenz
FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...
FMK2017 - Das FileMaker Selector-Connector Modell - Wie kann ich es sinnvoll ...
Verein FM Konferenz1.1K views
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl... von Verein FM Konferenz
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...
FMK2012: Strukturierte Scriptprogrammierung und neue Befehle und Scriptbefehl...
Verein FM Konferenz2.4K views
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten … von Verein FM Konferenz
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …
FMK2012: Programmstrukturen - FileMaker Skripten nicht nur für Experten …
Verein FM Konferenz7.8K views
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang Wunderlich von Verein FM Konferenz
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang WunderlichFMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang Wunderlich
FMK2015: FrameWork Konzepte in FileMaker Pro by Wolfgang Wunderlich
Verein FM Konferenz2.1K views
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009 von Wolfgang Kraus
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009
Collaboration - dann klappt’s auch mit dem ‘Nachbarn’ - mff 2009
Wolfgang Kraus998 views
Einführung in die semantische Suche in Massendaten von Martin Voigt
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
Martin Voigt1.5K views
FMK2015: Strukturierte Namensgebung als Basis für komplexe Programmierung by ... von Verein FM Konferenz
FMK2015: Strukturierte Namensgebung als Basis für komplexe Programmierung by ...FMK2015: Strukturierte Namensgebung als Basis für komplexe Programmierung by ...
FMK2015: Strukturierte Namensgebung als Basis für komplexe Programmierung by ...
Verein FM Konferenz2.2K views
FMK2019 FileMaker Anbindung an Online Systeme by Michael Heider von Verein FM Konferenz
FMK2019 FileMaker Anbindung an Online Systeme by Michael HeiderFMK2019 FileMaker Anbindung an Online Systeme by Michael Heider
FMK2019 FileMaker Anbindung an Online Systeme by Michael Heider
Funktionsweise und Ansätze von inhaltsbasiertem Filtern von Florian Stegmaier
Funktionsweise und Ansätze von inhaltsbasiertem FilternFunktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Florian Stegmaier873 views
FMK2019 FileMaker Anbindung an Online Systeme mit cURL & JSON by Michael Heider von Verein FM Konferenz
FMK2019 FileMaker Anbindung an Online Systeme mit cURL & JSON by Michael HeiderFMK2019 FileMaker Anbindung an Online Systeme mit cURL & JSON by Michael Heider
FMK2019 FileMaker Anbindung an Online Systeme mit cURL & JSON by Michael Heider
Suche ein effizientes Mittel zur Datenintegration von Thomas Kurz
Suche ein effizientes Mittel zur DatenintegrationSuche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur Datenintegration
Thomas Kurz246 views
Text Mining mit Python und PowerBI von Jens Albrecht
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBI
Jens Albrecht192 views
FMK2016 - Holger Darjus - Das Transistor-Prinzip von Verein FM Konferenz
FMK2016 - Holger Darjus - Das Transistor-PrinzipFMK2016 - Holger Darjus - Das Transistor-Prinzip
FMK2016 - Holger Darjus - Das Transistor-Prinzip
Verein FM Konferenz1.7K views
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper- von Verein FM Konferenz
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
Enterprise Search: Potenziale und Fallstricke von Alexander Stocker
Enterprise Search: Potenziale und FallstrickeEnterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und Fallstricke
Alexander Stocker4.8K views
FMK 2013 Design, Gestaltungsmittel in Layouts, Arnold Kegebein von Verein FM Konferenz
FMK 2013 Design, Gestaltungsmittel in Layouts, Arnold KegebeinFMK 2013 Design, Gestaltungsmittel in Layouts, Arnold Kegebein
FMK 2013 Design, Gestaltungsmittel in Layouts, Arnold Kegebein
Verein FM Konferenz2.5K views
FMK2015: FileMaker Server 14 by Volker Krambrich von Verein FM Konferenz
FMK2015: FileMaker Server 14 by Volker KrambrichFMK2015: FileMaker Server 14 by Volker Krambrich
FMK2015: FileMaker Server 14 by Volker Krambrich
Verein FM Konferenz1.2K views

Más de Verein FM Konferenz

FMK2022 Excel und FileMaker Schittko.pdf von
FMK2022 Excel und FileMaker Schittko.pdfFMK2022 Excel und FileMaker Schittko.pdf
FMK2022 Excel und FileMaker Schittko.pdfVerein FM Konferenz
1K views11 Folien
FMK2022 Drucken über Dateigrenzen hinweg von Philipp Puls von
FMK2022 Drucken über Dateigrenzen hinweg von Philipp PulsFMK2022 Drucken über Dateigrenzen hinweg von Philipp Puls
FMK2022 Drucken über Dateigrenzen hinweg von Philipp PulsVerein FM Konferenz
274 views18 Folien
FMK2022 Custom Functions von Philipp Puls von
FMK2022 Custom Functions von Philipp PulsFMK2022 Custom Functions von Philipp Puls
FMK2022 Custom Functions von Philipp PulsVerein FM Konferenz
110 views11 Folien
FMK2022 FileMaker Fehler von Martin Schwarz von
FMK2022 FileMaker Fehler von Martin SchwarzFMK2022 FileMaker Fehler von Martin Schwarz
FMK2022 FileMaker Fehler von Martin SchwarzVerein FM Konferenz
128 views93 Folien
FMK2022 FileMaker Server unter Linux Workshop von Bernhard Schulz von
FMK2022 FileMaker Server unter Linux Workshop von Bernhard SchulzFMK2022 FileMaker Server unter Linux Workshop von Bernhard Schulz
FMK2022 FileMaker Server unter Linux Workshop von Bernhard SchulzVerein FM Konferenz
108 views37 Folien
FMK2022 FileMaker DataAPI und Java von Bernhard Schulz von
FMK2022 FileMaker DataAPI und Java von Bernhard SchulzFMK2022 FileMaker DataAPI und Java von Bernhard Schulz
FMK2022 FileMaker DataAPI und Java von Bernhard SchulzVerein FM Konferenz
100 views30 Folien

Más de Verein FM Konferenz(20)

FMK2022 Drucken über Dateigrenzen hinweg von Philipp Puls von Verein FM Konferenz
FMK2022 Drucken über Dateigrenzen hinweg von Philipp PulsFMK2022 Drucken über Dateigrenzen hinweg von Philipp Puls
FMK2022 Drucken über Dateigrenzen hinweg von Philipp Puls
FMK2022 FileMaker Server unter Linux Workshop von Bernhard Schulz von Verein FM Konferenz
FMK2022 FileMaker Server unter Linux Workshop von Bernhard SchulzFMK2022 FileMaker Server unter Linux Workshop von Bernhard Schulz
FMK2022 FileMaker Server unter Linux Workshop von Bernhard Schulz
FMK2022 FileMaker DataAPI und Java von Bernhard Schulz von Verein FM Konferenz
FMK2022 FileMaker DataAPI und Java von Bernhard SchulzFMK2022 FileMaker DataAPI und Java von Bernhard Schulz
FMK2022 FileMaker DataAPI und Java von Bernhard Schulz
FMK2022 Neue Programmiertechniken von Adam Augusting von Verein FM Konferenz
FMK2022 Neue Programmiertechniken von Adam AugustingFMK2022 Neue Programmiertechniken von Adam Augusting
FMK2022 Neue Programmiertechniken von Adam Augusting
FMK2022 Arbeiten mit SVG in FileMaker - Robert Kaiser von Verein FM Konferenz
FMK2022 Arbeiten mit SVG in FileMaker - Robert KaiserFMK2022 Arbeiten mit SVG in FileMaker - Robert Kaiser
FMK2022 Arbeiten mit SVG in FileMaker - Robert Kaiser
FMK2022 CustomFunctions Fuer Einsteiger - Thomas Hirt von Verein FM Konferenz
FMK2022 CustomFunctions Fuer Einsteiger - Thomas HirtFMK2022 CustomFunctions Fuer Einsteiger - Thomas Hirt
FMK2022 CustomFunctions Fuer Einsteiger - Thomas Hirt
FMK2022 Die Zukunft von FileMaker - Marcel Moré.pdf von Verein FM Konferenz
FMK2022 Die Zukunft von FileMaker - Marcel Moré.pdfFMK2022 Die Zukunft von FileMaker - Marcel Moré.pdf
FMK2022 Die Zukunft von FileMaker - Marcel Moré.pdf
FMK2019 bug off lightning talk by Russell Watson von Verein FM Konferenz
FMK2019 bug off lightning talk by Russell WatsonFMK2019 bug off lightning talk by Russell Watson
FMK2019 bug off lightning talk by Russell Watson
Verein FM Konferenz1.2K views
FMK2019 being an optimist in a pessimistic world by vincenzo menanno von Verein FM Konferenz
FMK2019 being an optimist in a pessimistic world by vincenzo menannoFMK2019 being an optimist in a pessimistic world by vincenzo menanno
FMK2019 being an optimist in a pessimistic world by vincenzo menanno
FMK2019 FileMaker Performance Update 2019 by HOnza Koudelka von Verein FM Konferenz
FMK2019 FileMaker Performance Update 2019 by HOnza KoudelkaFMK2019 FileMaker Performance Update 2019 by HOnza Koudelka
FMK2019 FileMaker Performance Update 2019 by HOnza Koudelka
Verein FM Konferenz1.6K views
Fmk2019 Produktentwicklung mit FileMaker by Harald Mair von Verein FM Konferenz
Fmk2019 Produktentwicklung mit FileMaker by Harald MairFmk2019 Produktentwicklung mit FileMaker by Harald Mair
Fmk2019 Produktentwicklung mit FileMaker by Harald Mair
FMK2019 FileMaker Data API mit Node.js nutzen by Adam Augustin von Verein FM Konferenz
FMK2019 FileMaker Data API mit Node.js nutzen by Adam AugustinFMK2019 FileMaker Data API mit Node.js nutzen by Adam Augustin
FMK2019 FileMaker Data API mit Node.js nutzen by Adam Augustin
Verein FM Konferenz1.1K views

FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich

  • 1. Suchstrategien Dr. Martin Brändle, Dr. Volker Krambrich Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 2. Über Martin: Als ... Kontakt: mpbraendle@gmail.com •  FileMaker Entwickler –  denke ich in Datenstrukturen –  entwickle ich für das Web (Custom Web Publishing, MVC-Ansatz) •  Computational Chemist (Quantenchemie) –  denke ich in Algorithmen –  liess ich die CPUs während Tagen braten •  Informationsspezialist NDS I+D (Chemieinformation) –  arbeite ich mit Daten in FileMaker und anderen Systemen –  denke ich in Kategoriensystemen –  denke ich in Symbolen, grafischen Strukturen, Topologien –  arbeite ich oft mit anderen Informationssystemen als FileMaker –  beschäftige ich mich mit Recherchefragen der Kunden und versuche sie zu unterstützen Dr. Martin Brändle, Dr. Volker Krambrich FileMaker Konferenz 2013 Salzburg Suchstrategien www.filemaker-konferenz.com
  • 3. Über Volker •  •  •  •  Kontakt: v.krambrich@norsult.com Linguist und Informatiker, promoviert FileMaker 12 Certified Developer FileMaker Certified Trainer und Lehrer Schwerpunkte: Prozessmodellierung, Custom Software, (Instant) Web Publishing (auch HTML, XML, XSLT), Modellierung •  FileMaker Re-Cycling — betagte Lösungen aufpeppen und in moderne Programme überführen Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 4. Programm •  Wahr oder Falsch / Ja oder Nein / Schwarz oder Weiss •  Textsuchen: Wie können wir Erfolg verbessern? –  Query-Analyse –  Stoppwörter –  Unterstützte Suche –  Meinen Sie? •  Facettierung: Clustern und Verfeinern •  Ähnlichkeit •  Netzwerke •  Mustererkennung: Fragmentierung •  Schlussbetrachtung Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 5. Textsuchen klassisch Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 6. Wie können wir den Endnutzer bei der Recherche unterstützen? •  Ausbildung und Support: Schulung, Training, Support •  Technische Massnahmen –  GUI: Simpel und logisch –  Quickfind/Google-like •  Eine Suchzeile/mehrere Attribute gleichzeitig suchen •  Suchfrage und Resultate auf einem Schirm -  Nicht nur Search, sondern auch Browse - Vorgegebene Einstiegspunkte oder Favoriten - rasche Navigation zu nützlichen Resultaten - Benutzer erhält Vorstellung, was in der Datenbank sein könnte –  Optimierung der Suchfragen und -antworten Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 7. Beispiel Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 8. Optimierung der Suchfragen •  Log der Suchfragen erstellen –  Erfasst •  Query •  Zeitstempel •  Suchtyp (einfach/fortgeschritten) •  Sprache GUI •  Anzahl Treffer pro gesuchter Tabelle –  Abgeleitete Merkmale •  Erfolg (1/0) •  Anzahl Wörter •  Anzahl Ziffern/Zahlen •  Anteil Sonderzeichen (Operatoren, weitere) •  Anteil Grossschreibung Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 9. Implementation Suchschema (Beispiel CWP) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 10. Analyse und Optimierung der Suchfragen •  Projekt ACUEIL: Analyse von ca. 150‘000 Suchen 2005-2008 (2013: ca. 360‘000) Ergebnis: Einfache Massnahmen: Filtern der Eingabe •  Indizierende Sonderzeichen wie . , : ; & entfernen •  Stoppwörter (bedeutungsarme Wörter) entfernen an, and, das, de, der, of, on, the, und, ... –  sinnvoll bei Suche in Texten mit natürlicher Sprache –  nicht sinnvoll z.B. bei Personennamen (Lookup), Einzeldaten •  Übersetzung von Schlüsselbegriffen in Datenrepräsentation (Erfassungsregeln) der DB –  Beispiel: Volume, Volumes à Vol, calculations à calcs. •  Filterung via Substitute(“ “ & text & “ “; [“ an “; “ “]; [“ and “; “ “]; ....) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 11. Optimierung der Daten (Antworten) •  Ergebnis aus Analyse: Benutzer verwenden Copy & Paste •  Beispiele von Eingaben –  ARCHIV DER PHARMAZIE UND BERICHTE DER DEUTSCHEN PHARMAZEUTISCHEN GESSELSCHAFT –  ANGEWANDTE CHEMIE-INTERNATIONAL EDITION •  Merkmale: Grossschreibung, Bindestrich, Falschschreibung •  Herkunft: Science Citation Index (Web of Science) •  Massnahme –  Hinterlegung der „falschen“ Daten in einem zusätzlichen Feld („Fussnote“, „Bemerkung“), das mitgesucht wird (konkret: 156 Titel) –  Key-Value-Modell hilfreich [sic! ] Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 12. Sucherfolg vs. Anzahl Suchbegriffe Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 13. Unterstützte Suchen Tippfehler reduziert Voransicht der Resultate Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 14. Implementation •  Bedingungen –  Performance (Tippgeschwindigkeit) –  Daten stammen aus mehreren Tabellen –  Suchen und Aggregieren über mehrere Tabellen, Sortieren zu langsam •  Lösung –  Vorsortierte Tabelle (Präkoordination), ca. 100‘000 Strings –  Periodischer Update (jährlich, Bereinigung und Konsolidierung der Daten) •  Implementation –  YUILibrary Autocomplete Widget •  http://yuilibrary.com/yui/docs/autocomplete/ •  XML Datenquelle (FM PHP API) •  Cache browserseitig Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 15. Ambivalente/Unsinnige Fragen •  Ambivalente Anfragen: zuviele Treffer (>100) –  Science –  Inorg Chem –  Nature –  Cell •  Unsinnige Anfragen –  falsch verstandenes Zitat: Bsp. ibid –  Nicht Standard-Zeitschriftenabkürzungen, Bsp. JOMC, C –  falsches Findmittel •  Patente: U S P, Ger. Offen. •  ganze Artikelreferenzen •  chemische Verbindungsnamen –  falsches Feld, Bsp. ISBN-Nummer in Titel etc. •  Häufige Tippfehler, z.B. Hollemann, Göppel Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 16. Beispiel „Meinen Sie?“ Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 17. Meinen Sie? •  à la Google –  begrifforientiert: Alternativbegriff für eingegebenen Begriff –  benötigt Index der Begriffe –  benötigt Wortähnlichkeit/Silbentrenn-Algorithmus 
 (z.B. Levenshtein-Distanz für Wortähnlichkeit) –  teuer (CPU, Speicher) •  à la FileMaker –  resultatorientiert: zu Begriff wird Link zu richtigem Resultat oder alternativer Lösungsweg vorgeschlagen –  nutzt Fachkompetenz der Einrichtung –  wenige, ausgewählte Begriffe –  billig Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 18. Facettierung – Clustern und Verfeinern •  Grundidee –  Breit suchen –  Statistische Analyse der Resultate nach vordefinierten Kategorien •  Histogramm Attribute und Anzahl –  Verfeinern durch Hinzufügen von Attributen zur Suchfrage Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 19. Beispiel Facettierung (Apache Solr) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 20. Beispiel Facettierung: Reaxys Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 21. Demo Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 22. Facettierung mit FileMaker Pro 12 Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 23. Facettierung ohne ExecuteSQL? •  Möglicher Lösungsansatz mit Custom Functions –  CustomList (Agnès Barouh) bzw. HyperList (Todd Geist) •  Virtuelle Liste über Found Set –  UniqueList (Agnès Barouh) –  Distribution (Bruce Robertson) –  SortList (Agnès Barouh) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 24. Demo Volker Volker, da kannst du etwas zum Einstieg zeigen. Demonstrierst du uns Hyperlists? Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 25. Case study: Contracts administration Utrio Suchbegriff Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 26. Case study: Contracts administration Zusatztreffer Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 27. Case study: Contracts administration •  Kategorie •  Ergebnisanzeige •  Suchbegriff wiederholen Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 28. Case study: Contracts administration •  suche in unbekanntem Feld (Verfasser, Titel, Untertitel, Kommentar etc.) •  SuchKategorie erkennen (Name; ISBN; Telefonnummer etc.) •  unscharf suchen: John oder Jon •  Ergebnismenge begrenzen •  Kategorisieren •  Lösung zeigt angepasstes fmSearch (Matt Navarre, seedcode.com) im Einsatz •  Live Demo, wenn Internet hält… Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 29. Case study: Contracts administration Martin, das war der Übergang zurück zu Dir... …das sieht dir ähnlich! Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 30. Ähnlichkeit vom ! zum ~ Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 31. Attribut- und Textähnlichkeit Ähnlichkeit zwischen zwei Attributmengen A, B Ähnlichkeitsmasse •  Jaccard-Koeffizient oder –Index •  Tanimoto-Ähnlichkeit (für binäre Fingerprints) •  Sørensen-Dice-Koeffizient oder –Index Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 32. Demo Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 33. Attribut/Wort-Index •  Eigene Erzeugung –  Extraktion Attribute/Wörter pro 
 Datensatz –  Stoppwortgefiltert –  Variante: Nur unterschiedliche Wörter 
 und Anzahl –  Variante: Position(en) mitspeichern •  Aktionen für Datensatzänderungen –  Insert: Script (via Script Trigger) –  Delete: Löschen via Beziehung –  Performance: Problemlos, Aufwand linear, Script start-/stoppbar, paralellisierbar Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 34. Andere Sichtweise: Attribut-/Begriffsvektoren •  Attribute/Begriffe spannen einen Vektor im n-dimensionalen Indexraum auf •  Winkel zwischen zwei Vektoren ist Mass für Ähnlichkeit Skalarprodukt Beispiel •  Begriffe (chemical, 3764), (engineering, 5815), (kinetics 7931), (operations 11748), (unit 14728) •  Vektor a: Unit Operations of Chemical Engineering (3764, 5815, 11748, 14728) •  Vektor b: Chemical Engineering Kinetics (3764, 5815, 7931, 0) cos φ = 0.67 •  Problem: Benötigt Inversen Index Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 35. Inverser Index •  Attribut/Begriff à Datensätze •  Attributhäufigkeit •  Problematik: Inverser Index muss für jede Datensatzänderung (Insert, Delete) nachgeführt werden –  Insert: Existiert Wort bereits? à Record Count erhöhen, sonst einfügen (via Script Trigger) –  Delete: nur mit Script. Record Count erniedrigen, bei 0 Wort löschen –  Performance: x Suchen pro Datensatzänderung •  Ersterzeugung, Varianten –  Export (als XML), Gruppieren/Zählen mit XSLT, Reimport –  ExecuteSQL(”SELECT DISTINCT Wort, COUNT(DISTINCT Wort) FROM WortIndex ORDER BY Wort”; ””; ””) (Problem 2 GB-Limite) Das überlassen wir den FileMaker-Software-Ingenieuren! Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 36. Ähnlichkeitsverfahren: Problem Skalierung Für alle Ähnlichkeitsverfahren gilt •  Zwischen 2 Tabellen der Grösse n und m: 
 s = n*m (wenn n ≃ m à ∼n2) •  Selbstähnlichkeit in Tabelle der Grösse n: s = ½ n * (n -1) ∼n2 •  Beispiel: Kleiner Bibliothekskatalog mit 80‘000 Einträgen, Selbstähnlichkeit è 3.2 Milliarden Vergleiche Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 37. Lösungsansatz Skalierung –  Hinzuziehen weiterer Kriterien für Reduktion Grösse Start- und Vergleichsmenge –  Rollendes Fenster: z.B. Zeit, Anzahl Indexbegriffe, .. –  bei zeit-/personenabhängigen Daten: Gruppieren in Sessions – Sessionlänge – IP-Adresse – Session-ID (Cookies) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 38. Analyse Resultate „Hat sich Aufwand gelohnt?“ •  7152 Titel prozessiert •  Aufwand ca. 4.5 h •  Effektiv: 1.39 Mio. Berechnungen •  Theoretisch: Ca. 25.5 Mio 572 Mio. Berechnungen Gefunden •  1167 Titel mit ≥1 verwandten Titel(n) (16.3%) •  1506 Paarkorrelationen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien J(A,B) # Paare % Paare 1.00 780 51.8 0.95-1.00 0 0 0.90-0.95 25 1.7 0.85-0.90 66 4.4 0.8-0.85 132 8.8 0.75-0.80 164 10.9 0.70-0.75 143 9.5 0.65-0.70 72 4.8 0.60-0.65 124 8.2 FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 39. Analyse Performance (1) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 40. Analyse Performance (2) •  Durchschnittliche Berechnungszeit / Zyklus : ca. 10 ms –  17 Scriptschritte (9 für Berechnung, 8 für Speichern Resultat) –  3 ExecuteSQL-Befehle Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 41. Netzwerke: Komplexe Zusammenhänge entdecken Nun wissen wir, wie ähnliche 
 Dinge – noch aus demselben Bereich – gefunden werden können. Wie ist das mit Zusammenhängen zwischen verschiedenen Domänen? Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 42. Das Diabetes Dilemma... –  Diabetes (Typ1) ist wachsende Herausforderung –  Das Problem wächst zu auch zu einem Kostenproblem –  In 2005 Dialyse in Finnland teurer als der Jahresumsatz von Nokia (ca. 5,4 Mrd. €) –  Forschungsauftrag: Was sind die Ursachen –  Ziel: Wie kann man vorbeugen •  Ziel: Prognostizierbarkeit Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 43. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 44. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 45. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 46. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 47. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  • 48. Mustererkennung Siehst Du auch ein Muster? Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 49. Demo DNA •  4 Buchstaben für Nukleotide: 
 C (Cytosin), G (Guanin), A (Adenin), T (Thymin) •  Identifizierung von Teilsequenzen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 50. n-Gramme (n-grams) •  Zerlegung von Texten/Zeichenfolgen in Fragmente oder formale Worte der Länge n
 
 Beispiel: 3-Gramme von „FileMaker“ **f, *fi, fil, ile, lem, mak, ake, ker, er*, r** •  evtl. mit Positionsindex 1_fil 2_ile 3_lem 4_mak 5_ake 6_ker 7_ke 8_r •  evtl. gleitender Ausschnitt (Beispiel: Länge 6) 1 1_fil 2_ile 3_lem 4_mak 5_ake 6_ker 2 1_ile 2_lem 3_mak 4_ake 5_ker 6_ke 3 1_lem 2_mak 3_ake 4_ker 5_er 6_r Dr. Martin Brändle, Dr. Volker Krambrich ... Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 51. Identifizierung aller Teilsequenzen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 52. Diskussion n-Gramme •  Vorteile –  Sprachunabhängig –  statistische Auswertung eines Textkorpus –  Verteilung erlaubt Identifikation der Sprache –  nicht gleich gut anwendbar auf alle natürlichen Sprachen –  funktioniert auch bei verstmmeltn Textn (fehlertolerantes Retrieval) •  Nachteil –  Sprachen, die bei Flexion zu starker Formänderung neigen, bereiten Probleme –  Flexibilität wird mit hohem Aufwand erkauft Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 53. Schlussbetrachtung •  Inspiration holen von anderen Gebieten Wolfgang G. Stock, Information Retrieval : Informationen suchen und finden, 
 Oldenbourg Verlag, München, 2007 •  Datenrepräsentation und -suche bedingen sich gegenseitig •  Komplexe Suchen (Ähnlichkeit, Mustererkennung) erfordern Aufwand –  Präkoordinativ: Erzeugen von Fragmenten („Schnipseln“), Übersetzung vom mehrdimensionalen in linearen Datenraum –  Algorithmisch: Übersetzen der Suchfrage in FileMaker-Repräsentation –  Postkoordinativ: Sammeln, Zusammenfassen, Aufbereiten der Resultate •  Aufwand und Grenzen im Voraus abschätzen –  Skalierung (Speicher, Performance) –  Portierbarkeit der Methode
 (Einzelbenutzer Dr. Martin Brändle, Dr. Volker Krambrich à mehrere Benutzer, Client à Server, Client à Web) FileMaker Konferenz 2013 Salzburg Suchstrategien www.filemaker-konferenz.com
  • 54. Vielen Dank unseren Sponsoren Danke für das Bewerten dieses Vortrages Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 55. Appendix: Erweiterte Implementation Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  • 56. Appendix: Levenshtein-Distanz •  Levenshtein-Distanz –  Minimale Anzahl Operationen (Ersetzen, Einfügen, Löschen eines Buchstabens), um ein Wort in ein anderes zu überführen •  Analyse von Benutzerkorrekturen –  Tippfehler der Benutzer –  Einsatz des SmartPill Plugins und 
 der PHP-Funktion levenshtein() Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com