Patinfo09

992 Aufrufe

Veröffentlicht am

Semantische Recherche in Lexis Nexis

Veröffentlicht in: Technologie, Bildung
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
992
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
53
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Language causes problems for searchers With Boolean searching users need a lot of “qualifiers’ -- THIS and NOT THIS as well as proximity operators – ALL of which try to focus in on the real concept These are examples of this simple problem that causes a searcher a lot of headache The Yellow box gives additional common problems
  • Semantic searching is also called Concept searching It helps the user by searching on related concepts that may not include the key words used in the actual search. As you know, patents are frequently written in a way that intentionally obfuscates the actual technology being patented . Thus, semantic searching is of high interest to this community . The technical phrase for “real” semantic searching is: latent semantic analysis or LSA . Essentially, you feed the computer tens of thousands or millions of documents and the computer creates a relationship between every word in every document. As it does so, it begins to create statistically significant connections between words and phrases (concepts) so that a user’s keywords can be expanded beyond their literal spelling to include the actual concept of interest to the searcher . Many vendors claim to have semantic searching but nearly always they’re stretching the definition of the term to include older search techniques that might be based on dictionaries, thesauri, lexicons and taxonomies. Real semantic searching does not.
  • Here’s an example of what I mean . As I said, the computer creates these relationships and creates what is called a “vector space.” [Just as a matter of trivia, a vector space can be of any number of dimensions. Some true semantic search engines only have a few dimensions . Our semantic search engine will have in excess of 300 dimensions . ] Here is an example of the hyperspace around the word “marine.” As it built the hyperspace you notice that it recognized a close relationship between the words naval, Quantico, Corp and USMC. Similarly, but somewhat distance from that set of terms, it noticed a tight relationship between the words ecology and coastal and oceanography and oceanic . The result is that the computer can identify what concept you are talking about based on all of the other words and ways that people have discussed that same concept .
  • Well, there are challenges to semantic searching. In short, all attempts at providing semantic search to the marketplace thus far have treated it as a “black box” that requires the user to surrender their transparency and control over the actual search. In addition, assuming for the moment that the user can get over the black box issues, the fact that the content they need to search is stored in so many places, using so many indices, some of which are under their control and some of which will never be under their control, the issue of scale becomes real. Most truly semantic engines on the market today require the vendor to host, index and perform the search on the content based on their semantic technology . This is clearly untenable In today’s growing information market. The result is that, as much as users would like to use semantic searching, they have not seen a practical implementation to date.
  • Patinfo09

    1. 1. Semantische Recherche vs. Boolesche Recherche Caterina Dauvergne Lexis Nexis
    2. 2. Über LexisNexis IP-Lösungen <ul><li>IP Recherche Patent- und Nicht-Patentliteratur </li></ul><ul><li>TOTALPATENT </li></ul><ul><li>Workflow - Lösung für die Online-Patentrecherche und –Analyse </li></ul><ul><li>Inhalt 22 FT mit Maschinenübersetzung (Abdeckung insgesamt 96 Länder) </li></ul><ul><li>WICHTIGE REFERENZEN (NICHT -PATENTLITERATUR) AUF www.lexis.com </li></ul><ul><ul><li>IP.com </li></ul></ul><ul><ul><li>Research and Disclosure </li></ul></ul><ul><ul><li>Elsevier Fulltext Journals </li></ul></ul><ul><li>IP Patentdatenabgabe – Schnittstelle </li></ul><ul><li>IPDD INTELLECTUAL PROPERTY DATA DIRECT </li></ul><ul><li>102 Länder Abdeckung ( 26 FT mit Maschinenübersetzung ) </li></ul><ul><li>NEU im 2. Halbjahr 09: RUSSLAND – CHINA – KOREA mit Maschinenübersetzung – INDIA </li></ul>
    3. 3. Teil 1: Boolesche Recherche <ul><li>Die Ziele der Recherche </li></ul><ul><ul><li>Herausforderung beim Informations-Retrieval </li></ul></ul><ul><ul><li>Sprache </li></ul></ul><ul><ul><li>Vollständigkeit der Dokumentensammlung </li></ul></ul><ul><ul><li>Recherchesysteme </li></ul></ul>
    4. 4. “ Finden was du suchst … auch wenn du nicht sicher bist was du suchst und wenn du nicht weißt was du nicht weißt ”
    5. 5. Die Ziele der Recherche low hoch Ausfall quote tief hoch Die Mittel der Zielerreichung haben sich verändert : Distributed Semantic Searching Maschinelles Erlernen /Semantik Inferenz Automatic Query Generation <ul><li>Die Ziele bleiben dieselben: </li></ul><ul><li>Genauigkeit und Recall erhöhen sowie die Menge der irrelevanten Dokumenten (Ausfälle) zu verringern. </li></ul><ul><li>Genauigkeit beschreibt mit dem Anteil relevanter Dokumente an der Ergebnismenge eines Suchergebnisses </li></ul><ul><li>Ausfall bezeichnet den Anteil gefundener irrelevanter Dokumente an der Gesamtmenge aller irrelevanten Dokumente </li></ul>Genauigkeit
    6. 6. Herausforderungen beim Information-Retrieval - SPRACHE Cell Polysemie – Mehrdeutigkeit von einzelnen Worten und Phrasen, wie: <ul><li>Spezifische Herausforderungen bei der Patentrecherche: </li></ul><ul><li>Eine ungleiche Nomenklatur im ganzen Korpora </li></ul><ul><li>Der Patentanmelder kann als eigener Lexikograph auch handeln, ohne die Fachsprache im Anspruch zu nehmen </li></ul><ul><li>Die Industriefachsprache ist in konstanter Evolution </li></ul><ul><li>Technische Kurzform steht in Konflikt mit alltäglichen Worten, Bsp.: Au = Gold, Australia </li></ul>Electrolytic Cell Cell Phone Cell Biology Voltaic Cell Terrorist Cell Baby Infant Sick Unwell Buy Purchase ► Synonimie – unterschiedliche Wörter mit derselben Bedeutung, wie :
    7. 7. Herausforderungen bei Informations-Retrieval: RECHERCHE-SYSTEME Statische Recherche und Intelligenz Stand der Technik benötigt die Benutzung von Lexika,Synonymen und Thesaurus. Die Recherche leidet an Chronische Amnesie, Der Rechercheur wiederholt dieselbe Recherche mehrmals Recherche ist zeitraubend Unterschiedliche Systeme Unterschiedlichen Suchsprachen und Operatoren Keine Verbindungen Keine Standardisierung in den Recherche-Systemen Vielzahl von technischen Systemen Vielzahl von Retrieval-Sprachen und -Verfahren Vielzahl von verwendeten Technologien. Vielzahl von Standards Conference Papers Ranked OR PageRank Term Weights Nested Boolean Fielded Search Term Weights Nested Boolean
    8. 8. Teil 2 Semantische Recherche <ul><li>Semantische Recherchemodelle </li></ul><ul><li>Latente Semantische Analyse (LSA) </li></ul><ul><li>Bayessche Inferenz (SVM) </li></ul><ul><ul><li> Künstliche Generierung von Wissen aus Erfahrung </li></ul></ul>
    9. 9. Was ist die Semantische Recherche ? <ul><li>Semantische Modelle in der Recherche: </li></ul><ul><li>Latente Semantische Analyse (oder LSA) </li></ul><ul><li>Bayessche Inferenz oder Support Vector Machine ( SVM) </li></ul><ul><ul><li>Statistische und linguistische Analyse der Konkurrenz von Worten und Phrasen in einem Hyperraum </li></ul></ul><ul><ul><li>Verwendung dieser Zusammenhänge um Konzepte und Bedeutung von Worte Phrasen oder größere Abschnitte ( Sätze, Paragraphen ) zu recherchieren . </li></ul></ul><ul><ul><li>Ranking durch Klassifizierung des Inhalts und dessen Beziehungen durch Anwendung eines relationalen Modells </li></ul></ul>Semantische Recherche bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten durch Erschließung der Zusammenhänge zwischen Worten und Phrasen oder Konzepten, die den Benutzer in die Lage versetzen soll, eine verbesserte Qualität der Treffer zu erfassen.
    10. 10. Was ist die Semantische Recherche ? <ul><li>LSA =statistisches Verfahren </li></ul><ul><li>Anordnung der Wörter und Dokumente ( in diesen Falle Patentdokumente ) auf der Basis ihrer Auftretenshäufigkeit mit anderen Wörtern und Dokumenten in einem n-dimensionalen Raum (semantischer Raum) angeordnet . </li></ul><ul><li>Das Ergebnis: Ähnlichkeiten sind auf der Basis von Konzepten innerhalb des Materials eindeutig erkennbar. </li></ul>
    11. 11. Herausforderungen bei der Semantischen Recherche <ul><li>TRANSPARENZ </li></ul><ul><li>Semantische Suche ist wirkungsvoller und besser als Schlüsselwort- sowie Klassifikations- Recherche. Doch die Tatsache, dass die Benutzer nicht verstehen, wie Ergebnisse erzeugt werden, hat sie davon abgehalten, diese Methode zu benutzten. </li></ul><ul><li>Sie werden gezwungen „ Vertrauen“ in Algorithmen, Funktionen und deren Ergebnisse zu haben. In anderen Worten: Es gibt keine Transparenz. </li></ul><ul><li>STEUERUNG </li></ul><ul><li>Durch die semantische Recherche entsteht eine „Übergabe der Steuerung“ der Recherche d.h. Benutzer können nicht bestimmen, wie eine Abfrage konstruiert wird oder welche Algorithmen die Such-Logik verursachen. </li></ul><ul><li>MASSSTÄBE </li></ul><ul><li>Die Semantisches Recherche erfordert eine semantische Indexierung. Diese wird vermittelt durch die Einordnung und Kontrolle der Inhaltsindexierung des Suchkorpora (und folglich Steuerung der Formatierung, Speicherung, etc.). </li></ul><ul><li>Doch ermöglicht dieser Prozess keine Einstufung. Das Internet wird vielleicht niemals semantisch indexiert werden. </li></ul>Konsequenz : Die Semantische Recherche ist kein Ersatz für die Erfahrung in der Recherche.
    12. 12. Teil 3: Einsatz von LexisNexis bei der Semantischen Recherche <ul><ul><li>DSS = Distributed Semantic Searching </li></ul></ul><ul><ul><li>Was ist DSS ? </li></ul></ul><ul><ul><li>Welches sind die Unterschiede zu LSA? </li></ul></ul><ul><ul><li>Welche sind die Vorteile? </li></ul></ul>
    13. 13. Von der Booleschen zur Semantischen Recherche
    14. 14. Neues Tab fuer die Semantische Recherche Recherche kann sowohl aus Worten, Sätzen, Paragraphen, Ansprüchen, etc… bestehen. Auswahl : Semantische Recherche mit /ohne Konzeptanalysen- anzeige Boolesche Recherche bleibt als Auswahl beibhalten TotalPatent: Semantische Recherche
    15. 15. Begriffswolke Worte und Phrasen die durch Inferenz des semantischen „Gehirns“ bestimmt werden. Größe und die Farbe der entstandenen Worte bezeichnen das Ranking der Worte innerhalb der Recherche Die Text-Darstellung und deren Gewicht in der Recherche wird wiedergegeben TotalPatent: Semantische Recherche
    16. 16. Ein Klick auf jedes der Worte gibt dem Nutzer die Möglichkeit, die Wichtigkeit der Zuordnung des Begriffs im Ranking zu erkennen/zu bestimmen als auch ausgewählte Worte aus der Recherche auszuschließen. TotalPatent: Semantische Recherche
    17. 17. Einfügen von zusätzlichen Konzepten durch den Nutzer. TotalPatent: Semantische Recherche
    18. 18. Hier kann man sehen, wie die Semantische Rechercheoberfläche aussieht, nachdem die Semantische Analyse stattgefunden hat und die Konzepte für die Recherche sowohl vom Nutzer als auch von der DDS verarbeitet worden sind. TotalPatent: Semantische Recherche
    19. 19. <ul><li>Der untere Teil der Rechercheoberfläche </li></ul><ul><li>enthält - wie bei der Booleschen Recherche - die Möglichkeit, die Textrecherche mit anderen Kriterien zu verfeinern. </li></ul><ul><li>Z.B.: </li></ul><ul><ul><li>- Patentanmelder </li></ul></ul><ul><ul><li>Erfinder </li></ul></ul><ul><ul><li>Klassifikationen </li></ul></ul><ul><ul><li>Datum </li></ul></ul><ul><ul><li>Länder </li></ul></ul>TotalPatent: Semantische Recherche
    20. 20. Die Treffermenge des 1. Suchschrittes kann durch weitere Schlüsselwörter semantisch weiter verfeinert werden. TotalPatent: Semantische Recherche
    21. 21. TotalPatent: Semantische Recherche
    22. 22. <ul><li>Vielen Dank </li></ul><ul><li>für Ihre </li></ul><ul><li>Aufmerksamkeit! </li></ul><ul><li>Für weitere Fragen stehen wir Ihnen an unserem Stand jederzeit gerne zur Verfügung! </li></ul>

    ×