Suchstrategien
Dr. Martin Brändle, Dr. Volker Krambrich

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMake...
Über Martin: Als ...
Kontakt:	

mpbraendle@gmail.com	


•  FileMaker Entwickler 
–  denke ich in Datenstrukturen
–  entwic...
Über Volker
• 
• 
• 
• 

Kontakt:	

v.krambrich@norsult.com	


Linguist und Informatiker, promoviert
FileMaker 12 Certified...
Programm
•  Wahr oder Falsch / Ja oder Nein / Schwarz oder Weiss
•  Textsuchen: Wie können wir Erfolg verbessern?
–  Query...
Textsuchen klassisch

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filema...
Wie können wir den Endnutzer bei der
Recherche unterstützen?
•  Ausbildung und Support: Schulung, Training, Support
•  Tec...
Beispiel

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferen...
Optimierung der Suchfragen
•  Log der Suchfragen erstellen
–  Erfasst
•  Query
•  Zeitstempel
•  Suchtyp (einfach/fortgesc...
Implementation Suchschema (Beispiel CWP)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 201...
Analyse und Optimierung der Suchfragen
•  Projekt ACUEIL: Analyse von ca. 150‘000 Suchen 2005-2008 (2013: ca.
360‘000)
Erg...
Optimierung der Daten (Antworten)
•  Ergebnis aus Analyse: Benutzer verwenden Copy & Paste

•  Beispiele von Eingaben
–  A...
Sucherfolg vs. Anzahl Suchbegriffe

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salz...
Unterstützte Suchen

Tippfehler reduziert
Voransicht der Resultate
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien...
Implementation
•  Bedingungen
–  Performance (Tippgeschwindigkeit)
–  Daten stammen aus mehreren Tabellen
–  Suchen und Ag...
Ambivalente/Unsinnige Fragen
•  Ambivalente Anfragen: zuviele Treffer (>100)
–  Science
–  Inorg Chem
–  Nature
–  Cell

•...
Beispiel „Meinen Sie?“

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.file...
Meinen Sie?
•  à la Google
–  begrifforientiert: Alternativbegriff für eingegebenen Begriff
–  benötigt Index der Begriffe...
Facettierung – Clustern und Verfeinern
•  Grundidee
–  Breit suchen
–  Statistische Analyse der Resultate nach vordefiniert...
Beispiel Facettierung (Apache Solr)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Sal...
Beispiel Facettierung: Reaxys

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
...
Demo

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.co...
Facettierung mit FileMaker Pro 12

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzb...
Facettierung ohne ExecuteSQL?
•  Möglicher Lösungsansatz mit Custom Functions
–  CustomList (Agnès Barouh) bzw. HyperList ...
Demo Volker

Volker, da kannst du etwas zum
Einstieg zeigen.

Demonstrierst du uns Hyperlists?

	


Dr. Martin Brändle, Dr...
Case study: Contracts administration
Utrio	


Suchbegriff	


	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchst...
Case study: Contracts administration

Zusatztreffer	


	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategi...
Case study: Contracts administration

•  Kategorie	

•  Ergebnisanzeige	

•  Suchbegriff
wiederholen	


	


Dr. Martin Brä...
Case study: Contracts administration
•  suche in unbekanntem Feld
(Verfasser, Titel, Untertitel,
Kommentar etc.)
•  SuchKa...
Case study: Contracts administration
Martin, das war der Übergang
zurück zu Dir...

…das sieht dir ähnlich!

	


Dr. Marti...
Ähnlichkeit

vom ! zum ~

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.fi...
Attribut- und Textähnlichkeit
Ähnlichkeit zwischen zwei Attributmengen A, B

Ähnlichkeitsmasse

•  Jaccard-Koeffizient ode...
Demo

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.filemaker-konferenz.co...
Attribut/Wort-Index
•  Eigene Erzeugung
–  Extraktion Attribute/Wörter pro 

Datensatz
–  Stoppwortgefiltert
–  Variante: N...
Andere Sichtweise: Attribut-/Begriffsvektoren
•  Attribute/Begriffe spannen einen Vektor im n-dimensionalen Indexraum auf
...
Inverser Index
•  Attribut/Begriff à Datensätze
•  Attributhäufigkeit 
•  Problematik: Inverser Index muss für jede Datens...
Ähnlichkeitsverfahren: Problem Skalierung
Für alle Ähnlichkeitsverfahren gilt

•  Zwischen 2 Tabellen der Grösse n und m: ...
Lösungsansatz Skalierung
–  Hinzuziehen weiterer Kriterien für Reduktion Grösse Start- und
Vergleichsmenge
–  Rollendes Fe...
Analyse Resultate
„Hat sich Aufwand gelohnt?“
•  7152 Titel prozessiert
•  Aufwand ca. 4.5 h
•  Effektiv: 1.39 Mio.
Berech...
Analyse Performance (1)

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Salzburg
www.fil...
Analyse Performance (2)

•  Durchschnittliche Berechnungszeit / Zyklus : ca. 10 ms
–  17 Scriptschritte (9 für Berechnung,...
Netzwerke: Komplexe Zusammenhänge
entdecken
Nun wissen wir, wie ähnliche 

Dinge – noch aus demselben Bereich –
gefunden w...
Das Diabetes Dilemma...
–  Diabetes (Typ1) ist wachsende
Herausforderung
–  Das Problem wächst zu auch zu einem
Kostenprob...
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 20...
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 20...
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 20...
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 20...
Das Diabetes Dilemma...

	


Dr. Martin Brändle, Dr. Volker Krambrich
Krambrich
Suchstrategien

	


FileMaker Konferenz 20...
Mustererkennung

Siehst Du auch ein Muster?

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz ...
Demo DNA

•  4 Buchstaben für Nukleotide: 

C (Cytosin), G (Guanin), A (Adenin), T (Thymin)
•  Identifizierung von Teilsequ...
n-Gramme (n-grams)
•  Zerlegung von Texten/Zeichenfolgen in Fragmente oder formale Worte der
Länge n



Beispiel: 3-Gramme...
Identifizierung aller Teilsequenzen

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Sal...
Diskussion n-Gramme
•  Vorteile
–  Sprachunabhängig
–  statistische Auswertung eines Textkorpus
–  Verteilung erlaubt Iden...
Schlussbetrachtung
•  Inspiration holen von anderen Gebieten


Wolfgang G. Stock, Information Retrieval : Informationen su...
Vielen Dank unseren Sponsoren

Danke für das Bewerten dieses Vortrages
Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrate...
Appendix: Erweiterte Implementation

Dr. Martin Brändle, Dr. Volker Krambrich
Suchstrategien

FileMaker Konferenz 2013 Sal...
Appendix: Levenshtein-Distanz
•  Levenshtein-Distanz
–  Minimale Anzahl Operationen (Ersetzen,
Einfügen, Löschen eines Buc...
Nächste SlideShare
Wird geladen in …5
×

FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich

3.101 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
3.101
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
49
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

FMK 2013, Suchstrategien, Martin Braendle & Volker Krambich

  1. 1. Suchstrategien Dr. Martin Brändle, Dr. Volker Krambrich Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  2. 2. Über Martin: Als ... Kontakt: mpbraendle@gmail.com •  FileMaker Entwickler –  denke ich in Datenstrukturen –  entwickle ich für das Web (Custom Web Publishing, MVC-Ansatz) •  Computational Chemist (Quantenchemie) –  denke ich in Algorithmen –  liess ich die CPUs während Tagen braten •  Informationsspezialist NDS I+D (Chemieinformation) –  arbeite ich mit Daten in FileMaker und anderen Systemen –  denke ich in Kategoriensystemen –  denke ich in Symbolen, grafischen Strukturen, Topologien –  arbeite ich oft mit anderen Informationssystemen als FileMaker –  beschäftige ich mich mit Recherchefragen der Kunden und versuche sie zu unterstützen Dr. Martin Brändle, Dr. Volker Krambrich FileMaker Konferenz 2013 Salzburg Suchstrategien www.filemaker-konferenz.com
  3. 3. Über Volker •  •  •  •  Kontakt: v.krambrich@norsult.com Linguist und Informatiker, promoviert FileMaker 12 Certified Developer FileMaker Certified Trainer und Lehrer Schwerpunkte: Prozessmodellierung, Custom Software, (Instant) Web Publishing (auch HTML, XML, XSLT), Modellierung •  FileMaker Re-Cycling — betagte Lösungen aufpeppen und in moderne Programme überführen Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  4. 4. Programm •  Wahr oder Falsch / Ja oder Nein / Schwarz oder Weiss •  Textsuchen: Wie können wir Erfolg verbessern? –  Query-Analyse –  Stoppwörter –  Unterstützte Suche –  Meinen Sie? •  Facettierung: Clustern und Verfeinern •  Ähnlichkeit •  Netzwerke •  Mustererkennung: Fragmentierung •  Schlussbetrachtung Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  5. 5. Textsuchen klassisch Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  6. 6. Wie können wir den Endnutzer bei der Recherche unterstützen? •  Ausbildung und Support: Schulung, Training, Support •  Technische Massnahmen –  GUI: Simpel und logisch –  Quickfind/Google-like •  Eine Suchzeile/mehrere Attribute gleichzeitig suchen •  Suchfrage und Resultate auf einem Schirm -  Nicht nur Search, sondern auch Browse - Vorgegebene Einstiegspunkte oder Favoriten - rasche Navigation zu nützlichen Resultaten - Benutzer erhält Vorstellung, was in der Datenbank sein könnte –  Optimierung der Suchfragen und -antworten Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  7. 7. Beispiel Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  8. 8. Optimierung der Suchfragen •  Log der Suchfragen erstellen –  Erfasst •  Query •  Zeitstempel •  Suchtyp (einfach/fortgeschritten) •  Sprache GUI •  Anzahl Treffer pro gesuchter Tabelle –  Abgeleitete Merkmale •  Erfolg (1/0) •  Anzahl Wörter •  Anzahl Ziffern/Zahlen •  Anteil Sonderzeichen (Operatoren, weitere) •  Anteil Grossschreibung Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  9. 9. Implementation Suchschema (Beispiel CWP) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  10. 10. Analyse und Optimierung der Suchfragen •  Projekt ACUEIL: Analyse von ca. 150‘000 Suchen 2005-2008 (2013: ca. 360‘000) Ergebnis: Einfache Massnahmen: Filtern der Eingabe •  Indizierende Sonderzeichen wie . , : ; & entfernen •  Stoppwörter (bedeutungsarme Wörter) entfernen an, and, das, de, der, of, on, the, und, ... –  sinnvoll bei Suche in Texten mit natürlicher Sprache –  nicht sinnvoll z.B. bei Personennamen (Lookup), Einzeldaten •  Übersetzung von Schlüsselbegriffen in Datenrepräsentation (Erfassungsregeln) der DB –  Beispiel: Volume, Volumes à Vol, calculations à calcs. •  Filterung via Substitute(“ “ & text & “ “; [“ an “; “ “]; [“ and “; “ “]; ....) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  11. 11. Optimierung der Daten (Antworten) •  Ergebnis aus Analyse: Benutzer verwenden Copy & Paste •  Beispiele von Eingaben –  ARCHIV DER PHARMAZIE UND BERICHTE DER DEUTSCHEN PHARMAZEUTISCHEN GESSELSCHAFT –  ANGEWANDTE CHEMIE-INTERNATIONAL EDITION •  Merkmale: Grossschreibung, Bindestrich, Falschschreibung •  Herkunft: Science Citation Index (Web of Science) •  Massnahme –  Hinterlegung der „falschen“ Daten in einem zusätzlichen Feld („Fussnote“, „Bemerkung“), das mitgesucht wird (konkret: 156 Titel) –  Key-Value-Modell hilfreich [sic! ] Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  12. 12. Sucherfolg vs. Anzahl Suchbegriffe Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  13. 13. Unterstützte Suchen Tippfehler reduziert Voransicht der Resultate Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  14. 14. Implementation •  Bedingungen –  Performance (Tippgeschwindigkeit) –  Daten stammen aus mehreren Tabellen –  Suchen und Aggregieren über mehrere Tabellen, Sortieren zu langsam •  Lösung –  Vorsortierte Tabelle (Präkoordination), ca. 100‘000 Strings –  Periodischer Update (jährlich, Bereinigung und Konsolidierung der Daten) •  Implementation –  YUILibrary Autocomplete Widget •  http://yuilibrary.com/yui/docs/autocomplete/ •  XML Datenquelle (FM PHP API) •  Cache browserseitig Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  15. 15. Ambivalente/Unsinnige Fragen •  Ambivalente Anfragen: zuviele Treffer (>100) –  Science –  Inorg Chem –  Nature –  Cell •  Unsinnige Anfragen –  falsch verstandenes Zitat: Bsp. ibid –  Nicht Standard-Zeitschriftenabkürzungen, Bsp. JOMC, C –  falsches Findmittel •  Patente: U S P, Ger. Offen. •  ganze Artikelreferenzen •  chemische Verbindungsnamen –  falsches Feld, Bsp. ISBN-Nummer in Titel etc. •  Häufige Tippfehler, z.B. Hollemann, Göppel Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  16. 16. Beispiel „Meinen Sie?“ Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  17. 17. Meinen Sie? •  à la Google –  begrifforientiert: Alternativbegriff für eingegebenen Begriff –  benötigt Index der Begriffe –  benötigt Wortähnlichkeit/Silbentrenn-Algorithmus 
 (z.B. Levenshtein-Distanz für Wortähnlichkeit) –  teuer (CPU, Speicher) •  à la FileMaker –  resultatorientiert: zu Begriff wird Link zu richtigem Resultat oder alternativer Lösungsweg vorgeschlagen –  nutzt Fachkompetenz der Einrichtung –  wenige, ausgewählte Begriffe –  billig Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  18. 18. Facettierung – Clustern und Verfeinern •  Grundidee –  Breit suchen –  Statistische Analyse der Resultate nach vordefinierten Kategorien •  Histogramm Attribute und Anzahl –  Verfeinern durch Hinzufügen von Attributen zur Suchfrage Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  19. 19. Beispiel Facettierung (Apache Solr) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  20. 20. Beispiel Facettierung: Reaxys Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  21. 21. Demo Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  22. 22. Facettierung mit FileMaker Pro 12 Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  23. 23. Facettierung ohne ExecuteSQL? •  Möglicher Lösungsansatz mit Custom Functions –  CustomList (Agnès Barouh) bzw. HyperList (Todd Geist) •  Virtuelle Liste über Found Set –  UniqueList (Agnès Barouh) –  Distribution (Bruce Robertson) –  SortList (Agnès Barouh) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  24. 24. Demo Volker Volker, da kannst du etwas zum Einstieg zeigen. Demonstrierst du uns Hyperlists? Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  25. 25. Case study: Contracts administration Utrio Suchbegriff Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  26. 26. Case study: Contracts administration Zusatztreffer Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  27. 27. Case study: Contracts administration •  Kategorie •  Ergebnisanzeige •  Suchbegriff wiederholen Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  28. 28. Case study: Contracts administration •  suche in unbekanntem Feld (Verfasser, Titel, Untertitel, Kommentar etc.) •  SuchKategorie erkennen (Name; ISBN; Telefonnummer etc.) •  unscharf suchen: John oder Jon •  Ergebnismenge begrenzen •  Kategorisieren •  Lösung zeigt angepasstes fmSearch (Matt Navarre, seedcode.com) im Einsatz •  Live Demo, wenn Internet hält… Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  29. 29. Case study: Contracts administration Martin, das war der Übergang zurück zu Dir... …das sieht dir ähnlich! Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  30. 30. Ähnlichkeit vom ! zum ~ Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  31. 31. Attribut- und Textähnlichkeit Ähnlichkeit zwischen zwei Attributmengen A, B Ähnlichkeitsmasse •  Jaccard-Koeffizient oder –Index •  Tanimoto-Ähnlichkeit (für binäre Fingerprints) •  Sørensen-Dice-Koeffizient oder –Index Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  32. 32. Demo Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  33. 33. Attribut/Wort-Index •  Eigene Erzeugung –  Extraktion Attribute/Wörter pro 
 Datensatz –  Stoppwortgefiltert –  Variante: Nur unterschiedliche Wörter 
 und Anzahl –  Variante: Position(en) mitspeichern •  Aktionen für Datensatzänderungen –  Insert: Script (via Script Trigger) –  Delete: Löschen via Beziehung –  Performance: Problemlos, Aufwand linear, Script start-/stoppbar, paralellisierbar Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  34. 34. Andere Sichtweise: Attribut-/Begriffsvektoren •  Attribute/Begriffe spannen einen Vektor im n-dimensionalen Indexraum auf •  Winkel zwischen zwei Vektoren ist Mass für Ähnlichkeit Skalarprodukt Beispiel •  Begriffe (chemical, 3764), (engineering, 5815), (kinetics 7931), (operations 11748), (unit 14728) •  Vektor a: Unit Operations of Chemical Engineering (3764, 5815, 11748, 14728) •  Vektor b: Chemical Engineering Kinetics (3764, 5815, 7931, 0) cos φ = 0.67 •  Problem: Benötigt Inversen Index Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  35. 35. Inverser Index •  Attribut/Begriff à Datensätze •  Attributhäufigkeit •  Problematik: Inverser Index muss für jede Datensatzänderung (Insert, Delete) nachgeführt werden –  Insert: Existiert Wort bereits? à Record Count erhöhen, sonst einfügen (via Script Trigger) –  Delete: nur mit Script. Record Count erniedrigen, bei 0 Wort löschen –  Performance: x Suchen pro Datensatzänderung •  Ersterzeugung, Varianten –  Export (als XML), Gruppieren/Zählen mit XSLT, Reimport –  ExecuteSQL(”SELECT DISTINCT Wort, COUNT(DISTINCT Wort) FROM WortIndex ORDER BY Wort”; ””; ””) (Problem 2 GB-Limite) Das überlassen wir den FileMaker-Software-Ingenieuren! Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  36. 36. Ähnlichkeitsverfahren: Problem Skalierung Für alle Ähnlichkeitsverfahren gilt •  Zwischen 2 Tabellen der Grösse n und m: 
 s = n*m (wenn n ≃ m à ∼n2) •  Selbstähnlichkeit in Tabelle der Grösse n: s = ½ n * (n -1) ∼n2 •  Beispiel: Kleiner Bibliothekskatalog mit 80‘000 Einträgen, Selbstähnlichkeit è 3.2 Milliarden Vergleiche Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  37. 37. Lösungsansatz Skalierung –  Hinzuziehen weiterer Kriterien für Reduktion Grösse Start- und Vergleichsmenge –  Rollendes Fenster: z.B. Zeit, Anzahl Indexbegriffe, .. –  bei zeit-/personenabhängigen Daten: Gruppieren in Sessions – Sessionlänge – IP-Adresse – Session-ID (Cookies) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  38. 38. Analyse Resultate „Hat sich Aufwand gelohnt?“ •  7152 Titel prozessiert •  Aufwand ca. 4.5 h •  Effektiv: 1.39 Mio. Berechnungen •  Theoretisch: Ca. 25.5 Mio 572 Mio. Berechnungen Gefunden •  1167 Titel mit ≥1 verwandten Titel(n) (16.3%) •  1506 Paarkorrelationen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien J(A,B) # Paare % Paare 1.00 780 51.8 0.95-1.00 0 0 0.90-0.95 25 1.7 0.85-0.90 66 4.4 0.8-0.85 132 8.8 0.75-0.80 164 10.9 0.70-0.75 143 9.5 0.65-0.70 72 4.8 0.60-0.65 124 8.2 FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  39. 39. Analyse Performance (1) Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  40. 40. Analyse Performance (2) •  Durchschnittliche Berechnungszeit / Zyklus : ca. 10 ms –  17 Scriptschritte (9 für Berechnung, 8 für Speichern Resultat) –  3 ExecuteSQL-Befehle Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  41. 41. Netzwerke: Komplexe Zusammenhänge entdecken Nun wissen wir, wie ähnliche 
 Dinge – noch aus demselben Bereich – gefunden werden können. Wie ist das mit Zusammenhängen zwischen verschiedenen Domänen? Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  42. 42. Das Diabetes Dilemma... –  Diabetes (Typ1) ist wachsende Herausforderung –  Das Problem wächst zu auch zu einem Kostenproblem –  In 2005 Dialyse in Finnland teurer als der Jahresumsatz von Nokia (ca. 5,4 Mrd. €) –  Forschungsauftrag: Was sind die Ursachen –  Ziel: Wie kann man vorbeugen •  Ziel: Prognostizierbarkeit Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  43. 43. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  44. 44. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  45. 45. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  46. 46. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  47. 47. Das Diabetes Dilemma... Dr. Martin Brändle, Dr. Volker Krambrich Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg Salzburg www.filemaker-konferenz.com
  48. 48. Mustererkennung Siehst Du auch ein Muster? Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  49. 49. Demo DNA •  4 Buchstaben für Nukleotide: 
 C (Cytosin), G (Guanin), A (Adenin), T (Thymin) •  Identifizierung von Teilsequenzen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  50. 50. n-Gramme (n-grams) •  Zerlegung von Texten/Zeichenfolgen in Fragmente oder formale Worte der Länge n
 
 Beispiel: 3-Gramme von „FileMaker“ **f, *fi, fil, ile, lem, mak, ake, ker, er*, r** •  evtl. mit Positionsindex 1_fil 2_ile 3_lem 4_mak 5_ake 6_ker 7_ke 8_r •  evtl. gleitender Ausschnitt (Beispiel: Länge 6) 1 1_fil 2_ile 3_lem 4_mak 5_ake 6_ker 2 1_ile 2_lem 3_mak 4_ake 5_ker 6_ke 3 1_lem 2_mak 3_ake 4_ker 5_er 6_r Dr. Martin Brändle, Dr. Volker Krambrich ... Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  51. 51. Identifizierung aller Teilsequenzen Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  52. 52. Diskussion n-Gramme •  Vorteile –  Sprachunabhängig –  statistische Auswertung eines Textkorpus –  Verteilung erlaubt Identifikation der Sprache –  nicht gleich gut anwendbar auf alle natürlichen Sprachen –  funktioniert auch bei verstmmeltn Textn (fehlertolerantes Retrieval) •  Nachteil –  Sprachen, die bei Flexion zu starker Formänderung neigen, bereiten Probleme –  Flexibilität wird mit hohem Aufwand erkauft Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  53. 53. Schlussbetrachtung •  Inspiration holen von anderen Gebieten Wolfgang G. Stock, Information Retrieval : Informationen suchen und finden, 
 Oldenbourg Verlag, München, 2007 •  Datenrepräsentation und -suche bedingen sich gegenseitig •  Komplexe Suchen (Ähnlichkeit, Mustererkennung) erfordern Aufwand –  Präkoordinativ: Erzeugen von Fragmenten („Schnipseln“), Übersetzung vom mehrdimensionalen in linearen Datenraum –  Algorithmisch: Übersetzen der Suchfrage in FileMaker-Repräsentation –  Postkoordinativ: Sammeln, Zusammenfassen, Aufbereiten der Resultate •  Aufwand und Grenzen im Voraus abschätzen –  Skalierung (Speicher, Performance) –  Portierbarkeit der Methode
 (Einzelbenutzer Dr. Martin Brändle, Dr. Volker Krambrich à mehrere Benutzer, Client à Server, Client à Web) FileMaker Konferenz 2013 Salzburg Suchstrategien www.filemaker-konferenz.com
  54. 54. Vielen Dank unseren Sponsoren Danke für das Bewerten dieses Vortrages Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  55. 55. Appendix: Erweiterte Implementation Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com
  56. 56. Appendix: Levenshtein-Distanz •  Levenshtein-Distanz –  Minimale Anzahl Operationen (Ersetzen, Einfügen, Löschen eines Buchstabens), um ein Wort in ein anderes zu überführen •  Analyse von Benutzerkorrekturen –  Tippfehler der Benutzer –  Einsatz des SmartPill Plugins und 
 der PHP-Funktion levenshtein() Dr. Martin Brändle, Dr. Volker Krambrich Suchstrategien FileMaker Konferenz 2013 Salzburg www.filemaker-konferenz.com

×