Philip Ehring und Olaf Kopp nehmen Euch in diesem Deep Dive mit auf die Reise in die Welt moderner Suchmaschinen.
Auf der Basis wissenschaftlicher Theorien und Google-Patenten wird erklärt wie Google heute funktionieren kann und zukünftig immer mehr funktionieren wird.
Zudem gibt Euch Philip aus der Data Science Perspektive Einblicke zum Thema moderner Text-Embeddings (z.B. BERT) und wie entsprechende Systeme in der Praxis innerhalb der Otto-Gruppe eingesetzt werden.
Content-Attribuierung - Mit System zum erfolgreichen Content-MarketingOlaf Kopp
Weitere ähnliche Inhalte
Ähnlich wie Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst.
Ähnlich wie Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst. (20)
Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst.
1. Entitäten basierte Suche
SEOcampixx 2020
„Knowledge Graph, Knowledge
Vault, Hummingbird & BERT
sind die zentralen Bestandteile
für die Google-Suche. Entitäten
sind das verbindende Element.“
2. Natural Language Processing bzw. BERT
Ist die Lösung
„BERT bzw. Natural Language
Processing ist für das Verständnis,
die Klassifizierung und
Organisation von Texten & Sprache
und Suchanfragen bzw. Bildung von
zum Suchterm passenden Korpussen
einzusetzen. Entitäten spielen dabei
eine immer zentralere Rolle.“
3. Hallo! Mein Entitätsname ist Olaf Kopp
Attributs- Wert-Paare sind …
• Firma: Aufgesang
• Rolle 1: Co-Founder
• Beruf: Head of SEO /
CBDO
• Rolle 2: Blogger
• Rolle 3: Autor
• Rolle 4: Podcaster
• Rolle 5: SEAcamp
Mitveranstalter
4. Olaf Kopp, Co-Founder, Head of SEO, CBDO
Mein thematischer Kontext
• Content-Marketing
• Customer Journey
Management
• Digitaler
Markenaufbau
• Semantische SEO
• Content SEO
• Online-Marketing-
Strategien
• Leadership
5. Rolle: Machine Learning Specialist
Ausbildung: Fachangestellter für
Medien- und Informationsdienste
Bibliothek
Studium: Informationsmanagement
Team: DeepSense – Text Mining
Foundation
Themenbereiche:
• Natural Language Processing & Text
Mining
• Information Retrieval
• Semantik
• Suchmaschinenoptimierung
• Web Scraping
14. Sowie eine Entität genug
ähnliche Attribute zu einer
anderen Entität aufweist,
wird sie als ähnlich oder
gleich wahrgenommen, sowie
entsprechendes Vorwissen
über die Sachlichkeit
gegeben ist
15. Die Wahrnehmung und
Einordnung von
Entitäten kann je nach
Komplexität und
Anhaltspunkten etwas
dauern.
Manchmal ist es
notwendig um die Ecke
zu denken …
17. Ein Kontext kann sich durch äußere Einflüsse
wandeln. Sprache ist lebendig und im ständigen
Fluss. Heutige Systeme müssen in der Lage sein
kontinuierlich zu lernen und entsprechend zu
reagieren
28. „Sie alle stellten fest, dass die semantische
Ähnlichkeit zwischen zwei natürlichsprachlichen
Ausdrücken oder einzelnen Wörtern proportional zur
Ähnlichkeit zwischen den Kontexten ist, in denen die
Wörter oder Ausdrücke verwendet werden.“
Z. S. Harris (1951)
Salton and Lesk (1965)
Koll (1979)
Dumais (1988)
Deewester (1990)
Isbell (1998)
Quelle: Hobson, Lane; Howard, Cole; Hapke, Hannes Max (2019): Natural Language Processing in Action
Die Bedeutung eines Wortes
43. Wir wissen das entsprechende semantische
Systeme funktionieren, da wir bei der Sichtung
der Ergebnisse ein positives Feedback
Entgegenbringen und entsprechende Systeme
frequentieren.
Wir wissen allerdings nicht wieso es
funktioniert und wie unser Gehirn die
entsprechende Information verarbeitet, speichert
und daraus Wissen abstrahiert.
45. Was machen also all die neuen Embedding-Systeme anders?
ALBERT
GPT-2
T5
RoBERTa
ALBERT V2
ERNI
E
XLNet
DistilBERT
Transformer-XLBERT
46. Der größte Unterschied zwischen klassischen und contextual
embeddings …
classic word embedding
am Beispiel word2vec
contextual embeddings
am Beispiel BERT
Figur
Figur –
Konzept /
Körper
Figur –
Darstellung /
Miniatur
47. Der größte Unterschied zwischen klassischen und contextual
embeddings …
classic word embeddings
am Beispiel word2vec
contextual embeddings
am Beispiel BERT
Quelle: https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/, https://www.smartcat.io/blog/2017/word2vec-the-world-of-word-vectors/, https://medium.com/sciforce/googles-bert-changing-the-nlp-landscape-5f4a7bf65cc5
Es werden alle Worte im ausgewählten
Kontext berücksichtigt
Welche Worte einen geeigneten Kontext, vom dem gelernt
werden kann, darstellen ermittelt das Modell selbstständig
61. Entitäten und E-A-T
“Another problem we were having was an issue with quality and this was
particularly bad (we think of it as around 2008 2009 to 2011) we were getting lots of
complaints about low-quality content and they were right. We were seeing the same
low-quality thing but our relevance metrics kept going up and that’s because the low-
quality pages can be very relevant this is basically the definition of a content form in
our vision of the world so we thought we were doing great our numbers were saying
we were doing great and we were delivering a terrible user experience and turned out
we weren’t measuring what we needed to so what we ended up doing was defining
an explicit quality metric which got directly at the issue of quality it’s not the same
as relevance …. and it enabled us to develop quality related signals separate from
relevant signals and really improve them independently so when the metrics missed
something what ranking engineers need to do is fix the rating guidelines… or develop
new metrics.”
Quelle: Paul Haahr, SMX West 2016 – How Google Works: A Google Ranking
Engineer’s Story
62. Entitäten und E-A-T
For the most part, we do try to understand the content and the context of the pages
individually to show them properly in search. There are some things where we do look
at a website overall though.
So for example, if you add a new page to a website and we’ve never seen that page
before, we don’t know what the content and context is there, then understanding
what kind of a website this is helps us to better understand where we should kind of
start with this new page in search.
So that’s something where there’s a bit of both when it comes to ranking. It’s the
pages individually, but also the site overall.
I think there is probably a misunderstanding that there’s this one site-wide number
that Google keeps for all websites and that’s not the case. We look at lots of different
factors and there’s not just this one site-wide quality score that we look at. So we try
to look at a variety of different signals that come together, some of them are per
page, some of them are more per site, but it’s not the case where there’s one number
and it comes from these five pages on your website.
Quelle: John Müller, Google Webmaster Hangout, 2016
63. Entitäten und Ranking
Klassisches Information Retrieval meets Entitäten
Scoring-Engine
(Hummingbird)
Auswahl und Scoring
der Top-n Dokumente
über z.B. statististische
Textanalyse (TF-IDF,
Entitäten-Frequenz …)
Scoring nach weiteren
Faktoren wie interne
Verlinkung, Ladezeit,
vielleicht CTR und
weitere Nutzersignale
…
Berücksichtigung
Autorität und Trust von
Autor und Publisher
unterschiedlich
gewichtet nach
Branche , Keywords …
64. Entitäten und Ranking
Mögliche Faktoren auf Dokumentenebene
• Entitäten Frequenz in Dokumenten
• TF-IDF für Entitäten
• Nähe der Entität im Knowledge Graph zur Entität im Dokumenten-Graph. Je
näher sich die Graphen sind desto höher ein Confidence Score. Dieser Confidence
Score kann auch als Messung der Glaubwürdigkeit genutzt werden.
65. Entitäten und Ranking
Google Patent
In diesem Patent wird beschrieben wie
einem Nutzer aufgrund seines Interesses
an bestimmten Themen bzw. Entitäten
Dokumente in einer bestimmten
Reihenfolge angezeigt werden. Die
Dokumente werden anhand der
Entitäten-Frequenz gerankt. Auch eine
inverse Entitäten-Frequenz analog zur
Inverse Document Frequency (IDF) kann
eine Rolle spielen. Den Dokumenten
werden über Annotationen Themen und
Entitäten zugeordnet.
Quelle: Document ranking based on entity frequency, US9679018B1
66. Entitäten und Ranking
Google Patent
Das Patent beschreibt wie die Nähe von
Begriffen in einem Text aufgrund einer
vorliegenden semantischen Struktur
ermittelt werden kann. Zudem beschreibt
es eine Methode, die Dokumente
basierend auf einen Distance Value oder
zu deutsch Entfernungs-Wert hinsichtlich
einer Suchanfrage zu ranken.
Die Entfernung kann basierend darauf
gemessen werden, wie nahe Begriffe
semantisch und nicht visuell beieinander
liegen.
Damit stellt dieses Patent eine sinnvolle
Ergänzung zu den Ansätzen von BERT dar.
Quelle: Document ranking based on semantic distance between terms in a
document, US7716216B1
67. Entitäten und Ranking
Google Patent
Es beschreibt eine Methode wie Google
Dokumente zu einer Suchanfrage mit
Entitäten-Bezug ermitteln könnte, um
diesen in in den Suchergebnissen
anzuzeigen.
“The systems and methods can generate
or use a form of selection criteria that is
based on properties of entities mentioned
in queries, rather than based on keywords
and synonyms of keywords mentioned in
queries.”
Abgleich zwischen dem Knowledge Graph
und den Dokumenten-Graphen. Je näher
sich die Graphen sind desto höher ein
Confidence Score.
Quelle: Selecting content using entity properties, US9542450B1
68. Entitäten und Ranking
Google Patent
Dieses Patent beschreibt wie man
aufgrund eines Dokuments einen
Graphen für die jeweilige Entität erstellen
kann.
Dadurch entstehen eine Reihe an Quelle-
Daten-Graphen, die nach der jeweiligen
Entität, einer Beziehung zu einer
Nebenentität (Objekt), Art der Beziehung
(Prädikat)oder Typ des Quelldokuments
geclustert werden können. Cluster in
denen die Dokumente ähnliche oder
gleiche Aussagen zu einer Entität
enthalten gelten als vertrauenswürdiger
als Cluster in denen es zu Widersprüchen
zwischen den Dokumenten kommt. Über
diesen Weg lassen sich dann auch neue
Entitäten und Attribute für den
Knowledge Graph/Knowledge Vault
ermitteln und die Glaubwürdigkeit einer
Quelle ermitteln..
Quelle: Automatic discovery of new entities using graph reconciliation
71. Entitäten und E-A-T
Wie kann Google die Beziehung zwischen Domain bzw. Dokument und Entität herstellen?
Olaf
Kopp
Sem-
deutschland.de
Gastbeitrag auf
Zielbar.de
Linkedin-
Profil
Interview bei Search
Camp
Speaker auf der
SEOcampixx
72. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
• Backlinks mit semantisch passenden Ankertexten bzw. im semantisch
passenden Umfeld
• Linkbasierte Nähe zu autoritären Seed-Sites
• Vererbung eines Trust-Ranks über Links
• Aufbauen einer Bekanntheit (Suchvolumen, Links, Anzahl der Nennungen
in Fremdmedien, sozialen Netzwerken …)
73. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
“For Page Quality rating, you must also look for outside, independent reputation information
about the website. When the website says one thing about itself, but reputable external sources
disagree with what the website says, trust the external sources.” Quelle: Quality rater Guidelines
„Bekanntheit/Bedeutung: Damit ist der Bekanntheitsgrad eines Unternehmens gemeint. Manche
Orte oder Dinge sind bekannter als andere. Dies wird im Ranking der lokalen Suchergebnisse
berücksichtigt. So erscheinen beispielsweise berühmte Museen, Hotels oder Handelsmarken, die
vielen Nutzern ein Begriff sind, auch in den lokalen Suchergebnissen sehr wahrscheinlich an
herausragender Stelle. Die Bekanntheit bzw. Bedeutung ergibt sich darüber hinaus aus
Informationen, die wir aus dem Web – beispielsweise über Links, aus Artikeln oder aus
Verzeichnissen – über ein Unternehmen beziehen.“ Quelle:
https://support.google.com/business/answer/7091?hl=de
“If you publish high-quality content that is highly cited on the internet — and I’m not talking
about just links, but also mentions on social networks and people talking about your branding,
crap like that. Then you are doing great.” Quelle: Gary Illyes, Brighton SEO 2017
74. Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt wie aufgrund der Nähe zu
ausgewählten Seed-Websites ein
Ranking-Score für verlinkte Dokumente
erstellt werden kann. Dabei werden die
Seed-Seiten selbst individuell gewichtet.
Laut dem Patent müssen diese Seed-
Seiten manuell ausgewählt werden und
die Anzahl sollte limitiert sein, um
Manipulation vorzubeugen. Die Länge
eines Links zwischen eine Seed-Seite und
dem zu rankenden Dokument kann z.B.
über folgend Kriterien ermittelt werden:
Position des Links
• die Schriftart des Links
• Grad der thematischen Abweichung
der Quellseite
• Anzahl ausgehender Links der
Quellseite
75. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
We first select a small set of seed pages
to be evaluated by an expert. Once we
manually identify the reputable seed
pages, we use the link structure of the
web to discover other pages that are
likely to be good. In this paper we discuss
possible ways to implement the seed
selection and the discovery of good
pages.
76. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Im Patent wird beschrieben wie das
Ranking-Scoring von Dokumenten
aufgrund eines Trust-Labels ergänzt wird.
Diese Informationen können aus dem
Dokument selbst oder aus verweisenden
Fremd-Dokumenten in Form von
Linktexten oder anderen Informationen
bezüglich des Dokuments bzw. der
Entität sein. Diese Labels werden mit der
URL verknüpft und in einer Annotation-
Datenbank erfasst.
“A document’s trust factor is a function
of the trust ranks associated with the
entities have labeled the document with
labels that match the query labels. The
search engine 180 adjusts each
document’s underlying information
retrieval score using the document’s
trust factor, and then reranks the search
results using the adjusted scores.”
Quelle: Search result ranking based on trust
77. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Kriterien für einen Kredibilitäts- und Reputations-Faktors für Autoren:
• wie lange der Autor bereits nachweislich Content in einem
Themenbereich produziert
• Bekanntheitsgrad des Autors
• Bewertungen der veröffentlichten Inhalte durch Nutzer
• Wenn Inhalte des Autors von einem anderen Publisher mit
überdurchschnittlichen Bewertungen veröffentlicht werden
• Die Anzahl der durch den Autor veröffentlichten Inhalte
• Wie lange die letzte Veröffentlichung des Autors her ist
• Die Bewertungen bisheriger Veröffentlichungen ähnlichen Themen des
Autors
• Anzahl der Verweise auf die Inhaltes eines Autors insgesamt
• Anteil der Dokumente, die ein Autor zu einem thematischen Korpus
beigesteuert hat.
78. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt wie eine Suchmaschine
Dokumente unter Einfluss eines
Kredibilitäts-Faktors und Reputation-
Score des Autors ranken kann.
• Ein Autor kann mehrere Reputation-Scores
haben, je nachdem zu wie viel
verschiedenen Themen er Inhalte
publiziert.
• Der Reputation-Score eines Autors ist
unabhängig vom Publisher.
• Der Reputation-Score kann zurückgestuft
werden wenn Duplikate von Inhalten oder
Auszüge mehrfach veröffentlicht werden.
• Der Reputation-Score kann durch die
Anzahl der Verlinkungen der
veröffentlichten Inhalte beeinflusst
werden.
Quelle: Credibility of an author of online content
79. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Faktoren für ein Autoren-Scoring:
• Anzahl der Verweise auf die Inhaltes eines Autors insgesamt
• Anteil der Dokumente, die ein Autor zu einem thematischen Korpus
beigesteuert hat.
80. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt die Verfeinerung von
Suchergebnissen nach einem Autoren-
Scoring inkl. einem Citation-Scoring. Das
Citation-Scoring basiert auf der Anzahl
der Verweise auf die Dokumente eines
Autors. Ein weiteres Kriterium für das
Autor-Scoring ist der Anteil der Inhalte,
die ein Autor zu einem Korpus an
Dokumenten beigesteuert hat.
Quelle: SYSTEMS AND METHODS FOR RE-RANKING RANKED SEARCH RESULTS
81. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
• Richtigkeit der veröffentlichten Informationen im Abgleich mit der
„gängigen Meinung“ bzw. wissenschaftlichen Erkenntnissen (KBT)
Dazu die wissenschaftliche Arbeit Knowledge-Based Trust: Estimating the Trustworthiness of Web
Sources.
Über diesen Ansatz können Quellen mit einem „Trustworthiness-Score“ bewertet werden, ohne
den Faktor Popularität einfließen zu lassen. Websites, die häufig falsche Informationen
bereitstellen werden abgewertet. Websites, die Informationen im Einklang mit dem generellen
Konsens veröffentlichen werden belohnt.
“We propose a new approach that relies on endogenous signals, namely, the correctness of
factual information provided by the source. A source that has few false facts is considered to be
trustworthy.”
“We call the trustworthiness score we computed Knowledge-Based Trust (KBT). On synthetic
data, we show that our method can reliably compute the true trustworthiness levels of the
sources.”
82. Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Weitere Kriterien zur E-A-T-Bewertung von Autoren und Publishern:
• Nutzer-Signale wie CTR bei Dokumenten des Publishers / Autors
• Nennungen des Autors / Publishers in Best-Of-Listen
• Preise und Awards, die der Autor / Publisher gewonnen hat
• Kookkurrenzen des Autors / Publishers in Zusammenhang mit Begriffen
aus dem Themen-Umfeld
83. Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
In diesem Patent wird beschrieben, wie
über Vektorraumanalysen ein
Klassifizierungs-System für Websites in
einer bestimmten Wissens-Domäne
(Thema) automatisiert selbst lernend
erstellt wird.
Dieses Klassifizierungssystem kann für
die Bewertung neuer Inhalte als
Benchmark genutzt werden.
So fallen alle Inhalte, die unterhalb eines
Schwellenwerts liegen auf ein weiteres
Scoring verzichtet werden.
Bwertung aufgrund von
• Text
• Bildern
• Andere Bestandteile des Contents
wie z.B. Links
• Eine Kombination aus diesenQuelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND
CLASSIFY WEBSITE, WO2020033805
84. Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
• Websites können anhand des Textes,
der Bilder und der darin enthaltenen
Links klassifiziert werden
• Qualitätsbewertungen klassifizierter
Websites können einen Hinweis auf
die Autorität oder die Relevanz einer
Website bezogen auf eine bestimmte
Wissensdomäne sein oder beides
• Labels, die zur Klassifizierung von
Websites verwendet werden, können
Informationen über die Entität hinter
einer Website (Publisher), die auf der
Website beschriebene
Branche/Thema und den Autor
beinhalten
• Eine Website kann für mehrere
Wissensdomänen klassifiziert
werden.Quelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND
CLASSIFY WEBSITE, WO2020033805
87. Entitäten und E-A-T
Vererbung von Entitäten-Relevanz
Olaf
Kopp
Sem-
deutschland.de
Gastbeitrag auf
Zielbar.de
Linkedin-
Profil
Interview bei Search
Camp
Speaker auf der
SEOcampixx
91. Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Was verändert sich für SEOs und muss ich mich mit NLP &
Entitäten beschäftigen?
• Die Entwicklung ist ein jahrelanger langsamer Prozess. Deswegen merken wir
auch keine großen Veränderungen durch die Einführungen von Hummingbird,
Rankbrain und BERT.
• Der Prozess nimmt seit 1-2 Jahren durch das Zusammenspiel aus Natural
Language Processing und Machine Learning an Fahrt.
• Sich mit der grundsätzlichen Funktionsweise von modernen semantischen
Suchmaschinen zu beschäftige macht Sinn, um zu beurteilen was früher oder
später nicht mehr funktioniert oder jetzt schon von gestern ist.
• SEO-Verantwortliche werden immer mehr zur Schnittstellen-Position zwischen
Technik, Redaktion, Marketing und PR. „Ein isolierter SEO wird zukünftig keinen
Erfolg mehr haben.“
92. Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Mach es Google einfach Deine Inhalte richtig einzuordnen.
• Schreib in einfachen Satzkonstrukten und nicht in Schachtelsätzen.
• Versuch auf Personalpronomen in Sätzen zu verzichten.
• Nutze Adjektive und Adverbien nur wenn unbedingt notwendig für das
Verständnis des Satzes.
• Verzichte auf Geschwafel und bla, bla, bla … Redudziere Dich beim Schreiben auf
das Wesentliche.
• Strukturiere Inhalte mit logischen
• Absätzen
• Zwischenüberschriften
• Nutze TF-IDF-Analysen und integriere die relevanten Begriffe im Text, um den
semantischen Kontext zu verbessern.
93. Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Mach es Google einfach Deine Entität und die digitalen
Abbilder und Profile zu erkennen.
• Verknüpfe/Verlinke die Repräsentanzen Deiner Entität wie z.B. Domains, Apps,
Youtube-Kanäle, Social Media Profile … miteinander.
• Verlinke Deine Repräsentanzen mit Autoren-Profilen auf z.B. Amazon und zurück
(wenn vorhanden)
• Nutze Linktexte mit Deinem Entitätsnamen, um auf Deine Repräsentanzen zu
verlinken
94. Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Verbesserung der Entitäten-Relevanz (E-A-T)
• Positioniere Deine Entität in thematischen Kontexten
• Verlink Deine themenrelevante Fachpublikationen von der eigenen Website und Euren Social
Media Profilen.
• Verbessere die CTR auf Publikationen von Dir
• Baut Links aus semantisch passenden Umfeldern auf
• Beeinflusse Kookkurrenzen zwischen Eurer Marke und wichtigen Begriffen in Suchanfragen
z.B. über
• Offline-Werbung (TV-Werbung, Flyer, Anzeigen …)
• PR
• Schreib Gastbeiträge
• Geb Interviews
• Mach Influencer Marketing
• Organisiere Kooperationen (z.B. mit Lieferanten, Partnern … )
• Mach PR
• Mach Content-Marketing
• Sorg für Buzz in sozialen Netzwerken rund um Deine Entität
• …
95. THEMA + MARKE BEI GOOGLE
TV-Kampagnen am Beispiel Home2go
96. THEMA + MARKE BEI GOOGLE
TV-Kampagnen am Beispiel hometogo
98. Fazit
Meinung
„Je eindeutiger Google die
Positionierung des Unternehmens,
Autors, Publishers… identifizieren
kann, desto leichter wird es, die
mit dieser Entität verknüpften
thematisch relevanten Inhalten zu
ranken.“
102. Weiterführenden Quellen zur BERT Architektur (Kontext: Data
Science)
https://towardsdatascience.com/why-do-we-use-embeddings-in-nlp-2f20e1b632d2
https://towardsdatascience.com/word-embeddings-for-nlp-5b72991e01d4
https://medium.com/@b.terryjack/nlp-everything-about-word-embeddings-9ea21f51ccfe
http://jalammar.github.io/illustrated-transformer/
https://towardsdatascience.com/understand-self-attention-in-bert-intuitively-cd480cbff30b
https://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/
https://multithreaded.stitchfix.com/blog/2019/07/15/give-me-jeans/
https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b
http://nlp.seas.harvard.edu/2018/04/03/attention.html
Meldet euch bei Fragen an: philip.ehring@otto.de
103. Danke!
Fragen?
„Positioniert Euch als
eine Autorität und
Marke in
thematischen
Bereichen !!!“
Olaf Kopp
Co-Founder / CBDO / Head of SEO
Aufgesang GmbH
kopp@aufgesang.de
Ihr findet mich bei:
www.xing.com/profile/Olaf_Kopp/
www.linkedin.com/in/olafkopp/
www.instagram.com/olaf_kopp/
twitter.com/olaf_kopp
www.facebook.com/olaf.kopp
www.amazon.de/Olaf-Kopp/e/B00BEQGURG
www.termfrequenz.de/moderatoren/olaf-
kopp/
Hinweis der Redaktion
Hälfte der zeit
Shit you know:
„Kindersitz mit allen ECE-Normen“
Shit you know you don‘t know:
„Welche ECE Normen benötigt ein
Kindersitz in der EU?“
Shit you don‘t know you don‘t know:
„?!#“ – weitere Kindersitz Attribute,
welche im EU-Kontext für ein sicheres
Modell sprechen
Shit you know:
„Kindersitz mit allen ECE-Normen“
Shit you know you don‘t know:
„Welche ECE Normen benötigt ein
Kindersitz in der EU?“
Shit you don‘t know you don‘t know:
„?!#“ – weitere Kindersitz Attribute,
welche im EU-Kontext für ein sicheres
Modell sprechen
Shit you know:
„Kindersitz mit allen ECE-Normen“
Shit you know you don‘t know:
„Welche ECE Normen benötigt ein
Kindersitz in der EU?“
Shit you don‘t know you don‘t know:
„?!#“ – weitere Kindersitz Attribute,
welche im EU-Kontext für ein sicheres
Modell sprechen
Beziehungender Satzbestandteile -> Dependency Parsing / Syntaxanalyse
Position eines Wortes innerhalb eines Satzes
Wortart eines Satzbestandteils -> Part of Speech Tagging
Lemmatisierung -> zurückführung eines Wortes auf die jeweilige Grundform
Zuordnung zu Konzepten/Klassen -> Named Entity Recognition
Morphologie -> Annotation von Flexionsformen
Beziehungender Satzbestandteile -> Dependency Parsing / Syntaxanalyse
Position eines Wortes innerhalb eines Satzes
Wortart eines Satzbestandteils -> Part of Speech Tagging
Lemmatisierung -> zurückführung eines Wortes auf die jeweilige Grundform
Zuordnung zu Konzepten/Klassen -> Named Entity Recognition
Morphologie -> Annotation von Flexionsformen
Das praktische an diesem dualen System bei der Interpretation von Suchanfragen ist, dass auch Ergebnisse ausgegeben werden können, wenn in einem Suchterm nach keiner Entität gesucht wird.
Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
“If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”