SlideShare ist ein Scribd-Unternehmen logo
1 von 103
Entitäten basierte Suche
SEOcampixx 2020
„Knowledge Graph, Knowledge
Vault, Hummingbird & BERT
sind die zentralen Bestandteile
für die Google-Suche. Entitäten
sind das verbindende Element.“
Natural Language Processing bzw. BERT
Ist die Lösung
„BERT bzw. Natural Language
Processing ist für das Verständnis,
die Klassifizierung und
Organisation von Texten & Sprache
und Suchanfragen bzw. Bildung von
zum Suchterm passenden Korpussen
einzusetzen. Entitäten spielen dabei
eine immer zentralere Rolle.“
Hallo! Mein Entitätsname ist Olaf Kopp
Attributs- Wert-Paare sind …
• Firma: Aufgesang
• Rolle 1: Co-Founder
• Beruf: Head of SEO /
CBDO
• Rolle 2: Blogger
• Rolle 3: Autor
• Rolle 4: Podcaster
• Rolle 5: SEAcamp
Mitveranstalter
Olaf Kopp, Co-Founder, Head of SEO, CBDO
Mein thematischer Kontext
• Content-Marketing
• Customer Journey
Management
• Digitaler
Markenaufbau
• Semantische SEO
• Content SEO
• Online-Marketing-
Strategien
• Leadership
Rolle: Machine Learning Specialist
Ausbildung: Fachangestellter für
Medien- und Informationsdienste
Bibliothek
Studium: Informationsmanagement
Team: DeepSense – Text Mining
Foundation
Themenbereiche:
• Natural Language Processing & Text
Mining
• Information Retrieval
• Semantik
• Suchmaschinenoptimierung
• Web Scraping
Data Mining
aus unstrukturierten Daten via Natural Language Processing
Data Mining
Über BERT
Semantics, Natural Language Processing and Word Embeddings
Philip Ehring
SEO CAMPIXX
12.03.2020, Berlin
Wie suche ich eigentlich einen …
??
?
Wie suche ich eigentlich einen …
??
?
Sicherheitsnormen, Größe
Hersteller, Preis, Altersklassen, Ergonomie
Gewicht, Isofix, Adac Urteil, Sicherheit, Bedienung,
Schadstoffe, Verarbeitung, Reinigung, i-Size
!
?
?!
Wie suche ich eigentlich einen …
Was wäre wenn meine Suchmaschine mehr findet als ich frage…
!
?
?!
Was ist eigentlich Kontext?
Sowie eine Entität genug
ähnliche Attribute zu einer
anderen Entität aufweist,
wird sie als ähnlich oder
gleich wahrgenommen, sowie
entsprechendes Vorwissen
über die Sachlichkeit
gegeben ist
Die Wahrnehmung und
Einordnung von
Entitäten kann je nach
Komplexität und
Anhaltspunkten etwas
dauern.
Manchmal ist es
notwendig um die Ecke
zu denken …
Unterschiedliche Perspektiven
bzw. Vorwissen kann dazu
führen das ein Kontext
unterschiedlich wahrgenommen
und eingeschätzt wird.
Es gibt nicht nur eine Wahrheit
…
Ein Kontext kann sich durch äußere Einflüsse
wandeln. Sprache ist lebendig und im ständigen
Fluss. Heutige Systeme müssen in der Lage sein
kontinuierlich zu lernen und entsprechend zu
reagieren
Andererseits existieren
Kontexte, welche
zeitlos erscheinen
Kontexte können absurd erscheinen,
aber trotzdem aus bestimmten
Perspektiven Sinn ergeben
Dies sollte von entsprechenden
Systemen erkannt werden
Kontext kann
unterschiedliche
Flughöhen haben und
z.B. erst auf globaler
Ebene Sinn ergeben
Wie funktioniert
Natural Language Processing?
1 2 3 4 5 6 7 8 9 10 11 12
geblümt sein rein
Muster Produkt
Kleidung
Oberbekleidung
Textilmaterial
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=PLURAL
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=INDICATIVE
number=SINGULAR
person=THIRD
tense=PRESENT
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
Material
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=INDICATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
tense=PRESENT
case=DATIVE
gender=MASCULINE
number=SINGULAR
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
Quelle: https://explosion.ai/demos/displacy, https://cloud.google.com/natural-language?hl=de
Natural Language Processing
Data Mining via NLP
Entitäten-Analyse
Quelle: Entitäten-Analyse in der Natural Language Processing API
Data Mining
Offene Extrahierung über Natural Language Processing bzw. BERT
Quelle: Entitäten-Analyse in der Natural Language Processing API
Data Mining via NLP
Merken!
Subjekte, Objekte
bzw. Substantive sind
Entitäten!
1 2 3 4 5 6 7 8 9 10 11 12
geblümt sein rein
Muster Produkt
Kleidung
Oberbekleidung
Textilmaterial
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=PLURAL
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=INDICATIVE
number=SINGULAR
person=THIRD
tense=PRESENT
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
Material
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
case=INDICATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
tense=PRESENT
case=DATIVE
gender=MASCULINE
number=SINGULAR
person=THIRD
case=NOMINATIVE
gender=FEMININE
number=SINGULAR
person=THIRD
Quelle: https://explosion.ai/demos/displacy, https://cloud.google.com/natural-language?hl=de
Natural Language Processing
Synonyme
„Notebook“ = „Laptop“
Quelle: https://de.wikipedia.org/wiki/Homograph
Sprache weist Mehrdeutigkeiten auf
„Sie alle stellten fest, dass die semantische
Ähnlichkeit zwischen zwei natürlichsprachlichen
Ausdrücken oder einzelnen Wörtern proportional zur
Ähnlichkeit zwischen den Kontexten ist, in denen die
Wörter oder Ausdrücke verwendet werden.“
Z. S. Harris (1951)
Salton and Lesk (1965)
Koll (1979)
Dumais (1988)
Deewester (1990)
Isbell (1998)
Quelle: Hobson, Lane; Howard, Cole; Hapke, Hannes Max (2019): Natural Language Processing in Action
Die Bedeutung eines Wortes
.
Wir können blitzschnell differenzieren, aber …
?!
!
.
Modelle benötigen etwas mehr Vorlaufzeit …
??
?
Google ist in der Lage mit Hilfe von Kontext zu
differenzieren …
Google ist in der Lage mit Hilfe von Kontext zu
differenzieren …
Ein Verständnis ist noch nicht ganz gegeben …
Ein Verständnis ist noch nicht ganz gegeben …
Wie funktionieren Word Embeddings?
.
Computer sind in der Lage mit GPS Entfernungen im Raum zu
berechnen
Entfernung von Hamburg nach
Mountain View sind 8.900 km
.
Semantische Fragestellungen passen allerdings nicht
hinein …
??
?
Wir brauchen einen anderen Raum!
.
?!
?
Und zeigen dem Modell jede Menge Kontext zum differenzieren
Kontext
Und zeigen dem Modell jede Menge Kontext
Kontext .
Und zeigen dem Modell jede Menge Kontext
Kontext .
Bei kleinen Systemen lässt sich dies interaktiv
visualisieren …
Wir wissen das entsprechende semantische
Systeme funktionieren, da wir bei der Sichtung
der Ergebnisse ein positives Feedback
Entgegenbringen und entsprechende Systeme
frequentieren.
Wir wissen allerdings nicht wieso es
funktioniert und wie unser Gehirn die
entsprechende Information verarbeitet, speichert
und daraus Wissen abstrahiert.
Es gibt eine Vermutung …
Was machen also all die neuen Embedding-Systeme anders?
ALBERT
GPT-2
T5
RoBERTa
ALBERT V2
ERNI
E
XLNet
DistilBERT
Transformer-XLBERT
Der größte Unterschied zwischen klassischen und contextual
embeddings …
classic word embedding
am Beispiel word2vec
contextual embeddings
am Beispiel BERT
Figur
Figur –
Konzept /
Körper
Figur –
Darstellung /
Miniatur
Der größte Unterschied zwischen klassischen und contextual
embeddings …
classic word embeddings
am Beispiel word2vec
contextual embeddings
am Beispiel BERT
Quelle: https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/, https://www.smartcat.io/blog/2017/word2vec-the-world-of-word-vectors/, https://medium.com/sciforce/googles-bert-changing-the-nlp-landscape-5f4a7bf65cc5
Es werden alle Worte im ausgewählten
Kontext berücksichtigt
Welche Worte einen geeigneten Kontext, vom dem gelernt
werden kann, darstellen ermittelt das Modell selbstständig
Wie arbeiten wir damit?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Wie nutzen wir diese Technologie im Haus?
Im Prinzip ja, aber diese Antonyme, da hilft nur ein Knowledge Graph…
Wohin geht die Reise?
RETRIEVAL & SCORING
Index
Bilder
News
Bücher
Dokumente
VideosFlüge
Knowledge
Graph
Query-Processor
(Rankbrain)
Entität Entität
Entität
Entität
Entität
Entität
Entität
?
Entitäten-
Schnittstelle
Scoring-Engine
(Hummingbird)
Personalisierung
Suchintention
Cleaning-Engine
• Standort
• Suchhistorie
• Endgerät
• Duplikats –
Bereinigung
• Spam-
Herabstufung
• Sitelink-Ergänzung
© Olaf Kopp, Aufgesang GmbH
Entitäten beim Search Query Processing
Termbasiertes und Entitätenbasiertes Query – Entity Matching
Term-basierte AusgabeEntitäten-basierte Ausgabe
Entitäten und Ranking
Index
Bilder
News
Bücher
Dokumente
VideosFlüge
Knowledge
Graph
Query-Processor
(Rankbrain)
Entität Entität
Entität
Entität
Entität
Entität
Entitäten-
Schnittstelle
Scoring-Engine
(Hummingbird)
Personalisierung
Cleaning-Engine
Scoring &
Sortierung
Trust &
Autorität
© Olaf Kopp, Aufgesang GmbH
Entitäten und E-A-T
“Another problem we were having was an issue with quality and this was
particularly bad (we think of it as around 2008 2009 to 2011) we were getting lots of
complaints about low-quality content and they were right. We were seeing the same
low-quality thing but our relevance metrics kept going up and that’s because the low-
quality pages can be very relevant this is basically the definition of a content form in
our vision of the world so we thought we were doing great our numbers were saying
we were doing great and we were delivering a terrible user experience and turned out
we weren’t measuring what we needed to so what we ended up doing was defining
an explicit quality metric which got directly at the issue of quality it’s not the same
as relevance …. and it enabled us to develop quality related signals separate from
relevant signals and really improve them independently so when the metrics missed
something what ranking engineers need to do is fix the rating guidelines… or develop
new metrics.”
Quelle: Paul Haahr, SMX West 2016 – How Google Works: A Google Ranking
Engineer’s Story
Entitäten und E-A-T
For the most part, we do try to understand the content and the context of the pages
individually to show them properly in search. There are some things where we do look
at a website overall though.
So for example, if you add a new page to a website and we’ve never seen that page
before, we don’t know what the content and context is there, then understanding
what kind of a website this is helps us to better understand where we should kind of
start with this new page in search.
So that’s something where there’s a bit of both when it comes to ranking. It’s the
pages individually, but also the site overall.
I think there is probably a misunderstanding that there’s this one site-wide number
that Google keeps for all websites and that’s not the case. We look at lots of different
factors and there’s not just this one site-wide quality score that we look at. So we try
to look at a variety of different signals that come together, some of them are per
page, some of them are more per site, but it’s not the case where there’s one number
and it comes from these five pages on your website.
Quelle: John Müller, Google Webmaster Hangout, 2016
Entitäten und Ranking
Klassisches Information Retrieval meets Entitäten
Scoring-Engine
(Hummingbird)
Auswahl und Scoring
der Top-n Dokumente
über z.B. statististische
Textanalyse (TF-IDF,
Entitäten-Frequenz …)
Scoring nach weiteren
Faktoren wie interne
Verlinkung, Ladezeit,
vielleicht CTR und
weitere Nutzersignale
…
Berücksichtigung
Autorität und Trust von
Autor und Publisher
unterschiedlich
gewichtet nach
Branche , Keywords …
Entitäten und Ranking
Mögliche Faktoren auf Dokumentenebene
• Entitäten Frequenz in Dokumenten
• TF-IDF für Entitäten
• Nähe der Entität im Knowledge Graph zur Entität im Dokumenten-Graph. Je
näher sich die Graphen sind desto höher ein Confidence Score. Dieser Confidence
Score kann auch als Messung der Glaubwürdigkeit genutzt werden.
Entitäten und Ranking
Google Patent
In diesem Patent wird beschrieben wie
einem Nutzer aufgrund seines Interesses
an bestimmten Themen bzw. Entitäten
Dokumente in einer bestimmten
Reihenfolge angezeigt werden. Die
Dokumente werden anhand der
Entitäten-Frequenz gerankt. Auch eine
inverse Entitäten-Frequenz analog zur
Inverse Document Frequency (IDF) kann
eine Rolle spielen. Den Dokumenten
werden über Annotationen Themen und
Entitäten zugeordnet.
Quelle: Document ranking based on entity frequency, US9679018B1
Entitäten und Ranking
Google Patent
Das Patent beschreibt wie die Nähe von
Begriffen in einem Text aufgrund einer
vorliegenden semantischen Struktur
ermittelt werden kann. Zudem beschreibt
es eine Methode, die Dokumente
basierend auf einen Distance Value oder
zu deutsch Entfernungs-Wert hinsichtlich
einer Suchanfrage zu ranken.
Die Entfernung kann basierend darauf
gemessen werden, wie nahe Begriffe
semantisch und nicht visuell beieinander
liegen.
Damit stellt dieses Patent eine sinnvolle
Ergänzung zu den Ansätzen von BERT dar.
Quelle: Document ranking based on semantic distance between terms in a
document, US7716216B1
Entitäten und Ranking
Google Patent
Es beschreibt eine Methode wie Google
Dokumente zu einer Suchanfrage mit
Entitäten-Bezug ermitteln könnte, um
diesen in in den Suchergebnissen
anzuzeigen.
“The systems and methods can generate
or use a form of selection criteria that is
based on properties of entities mentioned
in queries, rather than based on keywords
and synonyms of keywords mentioned in
queries.”
Abgleich zwischen dem Knowledge Graph
und den Dokumenten-Graphen. Je näher
sich die Graphen sind desto höher ein
Confidence Score.
Quelle: Selecting content using entity properties, US9542450B1
Entitäten und Ranking
Google Patent
Dieses Patent beschreibt wie man
aufgrund eines Dokuments einen
Graphen für die jeweilige Entität erstellen
kann.
Dadurch entstehen eine Reihe an Quelle-
Daten-Graphen, die nach der jeweiligen
Entität, einer Beziehung zu einer
Nebenentität (Objekt), Art der Beziehung
(Prädikat)oder Typ des Quelldokuments
geclustert werden können. Cluster in
denen die Dokumente ähnliche oder
gleiche Aussagen zu einer Entität
enthalten gelten als vertrauenswürdiger
als Cluster in denen es zu Widersprüchen
zwischen den Dokumenten kommt. Über
diesen Weg lassen sich dann auch neue
Entitäten und Attribute für den
Knowledge Graph/Knowledge Vault
ermitteln und die Glaubwürdigkeit einer
Quelle ermitteln..
Quelle: Automatic discovery of new entities using graph reconciliation
Entitäten und E-A-T
Entitäten und E-A-T
Autor und Publisher
Entitäten und E-A-T
Wie kann Google die Beziehung zwischen Domain bzw. Dokument und Entität herstellen?
Olaf
Kopp
Sem-
deutschland.de
Gastbeitrag auf
Zielbar.de
Linkedin-
Profil
Interview bei Search
Camp
Speaker auf der
SEOcampixx
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
• Backlinks mit semantisch passenden Ankertexten bzw. im semantisch
passenden Umfeld
• Linkbasierte Nähe zu autoritären Seed-Sites
• Vererbung eines Trust-Ranks über Links
• Aufbauen einer Bekanntheit (Suchvolumen, Links, Anzahl der Nennungen
in Fremdmedien, sozialen Netzwerken …)
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
“For Page Quality rating, you must also look for outside, independent reputation information
about the website. When the website says one thing about itself, but reputable external sources
disagree with what the website says, trust the external sources.” Quelle: Quality rater Guidelines
„Bekanntheit/Bedeutung: Damit ist der Bekanntheitsgrad eines Unternehmens gemeint. Manche
Orte oder Dinge sind bekannter als andere. Dies wird im Ranking der lokalen Suchergebnisse
berücksichtigt. So erscheinen beispielsweise berühmte Museen, Hotels oder Handelsmarken, die
vielen Nutzern ein Begriff sind, auch in den lokalen Suchergebnissen sehr wahrscheinlich an
herausragender Stelle. Die Bekanntheit bzw. Bedeutung ergibt sich darüber hinaus aus
Informationen, die wir aus dem Web – beispielsweise über Links, aus Artikeln oder aus
Verzeichnissen – über ein Unternehmen beziehen.“ Quelle:
https://support.google.com/business/answer/7091?hl=de
“If you publish high-quality content that is highly cited on the internet — and I’m not talking
about just links, but also mentions on social networks and people talking about your branding,
crap like that. Then you are doing great.” Quelle: Gary Illyes, Brighton SEO 2017
Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt wie aufgrund der Nähe zu
ausgewählten Seed-Websites ein
Ranking-Score für verlinkte Dokumente
erstellt werden kann. Dabei werden die
Seed-Seiten selbst individuell gewichtet.
Laut dem Patent müssen diese Seed-
Seiten manuell ausgewählt werden und
die Anzahl sollte limitiert sein, um
Manipulation vorzubeugen. Die Länge
eines Links zwischen eine Seed-Seite und
dem zu rankenden Dokument kann z.B.
über folgend Kriterien ermittelt werden:
Position des Links
• die Schriftart des Links
• Grad der thematischen Abweichung
der Quellseite
• Anzahl ausgehender Links der
Quellseite
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
We first select a small set of seed pages
to be evaluated by an expert. Once we
manually identify the reputable seed
pages, we use the link structure of the
web to discover other pages that are
likely to be good. In this paper we discuss
possible ways to implement the seed
selection and the discovery of good
pages.
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Im Patent wird beschrieben wie das
Ranking-Scoring von Dokumenten
aufgrund eines Trust-Labels ergänzt wird.
Diese Informationen können aus dem
Dokument selbst oder aus verweisenden
Fremd-Dokumenten in Form von
Linktexten oder anderen Informationen
bezüglich des Dokuments bzw. der
Entität sein. Diese Labels werden mit der
URL verknüpft und in einer Annotation-
Datenbank erfasst.
“A document’s trust factor is a function
of the trust ranks associated with the
entities have labeled the document with
labels that match the query labels. The
search engine 180 adjusts each
document’s underlying information
retrieval score using the document’s
trust factor, and then reranks the search
results using the adjusted scores.”
Quelle: Search result ranking based on trust
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Kriterien für einen Kredibilitäts- und Reputations-Faktors für Autoren:
• wie lange der Autor bereits nachweislich Content in einem
Themenbereich produziert
• Bekanntheitsgrad des Autors
• Bewertungen der veröffentlichten Inhalte durch Nutzer
• Wenn Inhalte des Autors von einem anderen Publisher mit
überdurchschnittlichen Bewertungen veröffentlicht werden
• Die Anzahl der durch den Autor veröffentlichten Inhalte
• Wie lange die letzte Veröffentlichung des Autors her ist
• Die Bewertungen bisheriger Veröffentlichungen ähnlichen Themen des
Autors
• Anzahl der Verweise auf die Inhaltes eines Autors insgesamt
• Anteil der Dokumente, die ein Autor zu einem thematischen Korpus
beigesteuert hat.
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt wie eine Suchmaschine
Dokumente unter Einfluss eines
Kredibilitäts-Faktors und Reputation-
Score des Autors ranken kann.
• Ein Autor kann mehrere Reputation-Scores
haben, je nachdem zu wie viel
verschiedenen Themen er Inhalte
publiziert.
• Der Reputation-Score eines Autors ist
unabhängig vom Publisher.
• Der Reputation-Score kann zurückgestuft
werden wenn Duplikate von Inhalten oder
Auszüge mehrfach veröffentlicht werden.
• Der Reputation-Score kann durch die
Anzahl der Verlinkungen der
veröffentlichten Inhalte beeinflusst
werden.
Quelle: Credibility of an author of online content
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Faktoren für ein Autoren-Scoring:
• Anzahl der Verweise auf die Inhaltes eines Autors insgesamt
• Anteil der Dokumente, die ein Autor zu einem thematischen Korpus
beigesteuert hat.
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Es beschreibt die Verfeinerung von
Suchergebnissen nach einem Autoren-
Scoring inkl. einem Citation-Scoring. Das
Citation-Scoring basiert auf der Anzahl
der Verweise auf die Dokumente eines
Autors. Ein weiteres Kriterium für das
Autor-Scoring ist der Anteil der Inhalte,
die ein Autor zu einem Korpus an
Dokumenten beigesteuert hat.
Quelle: SYSTEMS AND METHODS FOR RE-RANKING RANKED SEARCH RESULTS
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
• Richtigkeit der veröffentlichten Informationen im Abgleich mit der
„gängigen Meinung“ bzw. wissenschaftlichen Erkenntnissen (KBT)
Dazu die wissenschaftliche Arbeit Knowledge-Based Trust: Estimating the Trustworthiness of Web
Sources.
Über diesen Ansatz können Quellen mit einem „Trustworthiness-Score“ bewertet werden, ohne
den Faktor Popularität einfließen zu lassen. Websites, die häufig falsche Informationen
bereitstellen werden abgewertet. Websites, die Informationen im Einklang mit dem generellen
Konsens veröffentlichen werden belohnt.
“We propose a new approach that relies on endogenous signals, namely, the correctness of
factual information provided by the source. A source that has few false facts is considered to be
trustworthy.”
“We call the trustworthiness score we computed Knowledge-Based Trust (KBT). On synthetic
data, we show that our method can reliably compute the true trustworthiness levels of the
sources.”
Entitäten und E-A-T
Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit
Weitere Kriterien zur E-A-T-Bewertung von Autoren und Publishern:
• Nutzer-Signale wie CTR bei Dokumenten des Publishers / Autors
• Nennungen des Autors / Publishers in Best-Of-Listen
• Preise und Awards, die der Autor / Publisher gewonnen hat
• Kookkurrenzen des Autors / Publishers in Zusammenhang mit Begriffen
aus dem Themen-Umfeld
Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
In diesem Patent wird beschrieben, wie
über Vektorraumanalysen ein
Klassifizierungs-System für Websites in
einer bestimmten Wissens-Domäne
(Thema) automatisiert selbst lernend
erstellt wird.
Dieses Klassifizierungssystem kann für
die Bewertung neuer Inhalte als
Benchmark genutzt werden.
So fallen alle Inhalte, die unterhalb eines
Schwellenwerts liegen auf ein weiteres
Scoring verzichtet werden.
Bwertung aufgrund von
• Text
• Bildern
• Andere Bestandteile des Contents
wie z.B. Links
• Eine Kombination aus diesenQuelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND
CLASSIFY WEBSITE, WO2020033805
Entitäten und E-A-T
Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit
• Websites können anhand des Textes,
der Bilder und der darin enthaltenen
Links klassifiziert werden
• Qualitätsbewertungen klassifizierter
Websites können einen Hinweis auf
die Autorität oder die Relevanz einer
Website bezogen auf eine bestimmte
Wissensdomäne sein oder beides
• Labels, die zur Klassifizierung von
Websites verwendet werden, können
Informationen über die Entität hinter
einer Website (Publisher), die auf der
Website beschriebene
Branche/Thema und den Autor
beinhalten
• Eine Website kann für mehrere
Wissensdomänen klassifiziert
werden.Quelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND
CLASSIFY WEBSITE, WO2020033805
Entitäten und E-A-T
Ist das Patent aktiv?
Quelle: seosuedwest.de
Entitäten und E-A-T
Die Bewertung der Qualität scheint schon gut zu funktionieren
Entitäten und E-A-T
Vererbung von Entitäten-Relevanz
Olaf
Kopp
Sem-
deutschland.de
Gastbeitrag auf
Zielbar.de
Linkedin-
Profil
Interview bei Search
Camp
Speaker auf der
SEOcampixx
Entitäten und E-A-T
Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
Entitäten und E-A-T
Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
Entitäten und E-A-T
Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Was verändert sich für SEOs und muss ich mich mit NLP &
Entitäten beschäftigen?
• Die Entwicklung ist ein jahrelanger langsamer Prozess. Deswegen merken wir
auch keine großen Veränderungen durch die Einführungen von Hummingbird,
Rankbrain und BERT.
• Der Prozess nimmt seit 1-2 Jahren durch das Zusammenspiel aus Natural
Language Processing und Machine Learning an Fahrt.
• Sich mit der grundsätzlichen Funktionsweise von modernen semantischen
Suchmaschinen zu beschäftige macht Sinn, um zu beurteilen was früher oder
später nicht mehr funktioniert oder jetzt schon von gestern ist.
• SEO-Verantwortliche werden immer mehr zur Schnittstellen-Position zwischen
Technik, Redaktion, Marketing und PR. „Ein isolierter SEO wird zukünftig keinen
Erfolg mehr haben.“
Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Mach es Google einfach Deine Inhalte richtig einzuordnen.
• Schreib in einfachen Satzkonstrukten und nicht in Schachtelsätzen.
• Versuch auf Personalpronomen in Sätzen zu verzichten.
• Nutze Adjektive und Adverbien nur wenn unbedingt notwendig für das
Verständnis des Satzes.
• Verzichte auf Geschwafel und bla, bla, bla … Redudziere Dich beim Schreiben auf
das Wesentliche.
• Strukturiere Inhalte mit logischen
• Absätzen
• Zwischenüberschriften
• Nutze TF-IDF-Analysen und integriere die relevanten Begriffe im Text, um den
semantischen Kontext zu verbessern.
Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Mach es Google einfach Deine Entität und die digitalen
Abbilder und Profile zu erkennen.
• Verknüpfe/Verlinke die Repräsentanzen Deiner Entität wie z.B. Domains, Apps,
Youtube-Kanäle, Social Media Profile … miteinander.
• Verlinke Deine Repräsentanzen mit Autoren-Profilen auf z.B. Amazon und zurück
(wenn vorhanden)
• Nutze Linktexte mit Deinem Entitätsnamen, um auf Deine Repräsentanzen zu
verlinken
Fazit
Was können SEOs und (Content-)Marketer daraus lernen?
Verbesserung der Entitäten-Relevanz (E-A-T)
• Positioniere Deine Entität in thematischen Kontexten
• Verlink Deine themenrelevante Fachpublikationen von der eigenen Website und Euren Social
Media Profilen.
• Verbessere die CTR auf Publikationen von Dir
• Baut Links aus semantisch passenden Umfeldern auf
• Beeinflusse Kookkurrenzen zwischen Eurer Marke und wichtigen Begriffen in Suchanfragen
z.B. über
• Offline-Werbung (TV-Werbung, Flyer, Anzeigen …)
• PR
• Schreib Gastbeiträge
• Geb Interviews
• Mach Influencer Marketing
• Organisiere Kooperationen (z.B. mit Lieferanten, Partnern … )
• Mach PR
• Mach Content-Marketing
• Sorg für Buzz in sozialen Netzwerken rund um Deine Entität
• …
THEMA + MARKE BEI GOOGLE
TV-Kampagnen am Beispiel Home2go
THEMA + MARKE BEI GOOGLE
TV-Kampagnen am Beispiel hometogo
Fazit
Prognose
„Ein isolierter SEO wird
zukünftig keinen Erfolg mehr
haben.“
Fazit
Meinung
„Je eindeutiger Google die
Positionierung des Unternehmens,
Autors, Publishers… identifizieren
kann, desto leichter wird es, die
mit dieser Entität verknüpften
thematisch relevanten Inhalten zu
ranken.“
Fazit!
Meinung
„Positioniert Euch für Google
erkennbar als eine Autorität und
Marke in den relevanten
thematischen Bereichen !!!“
Fazit
Aus der SMX-Keynote 2014 „The SEO Revolution Will Not Be Televised”, Rand Fishkin
Weitere Informationen
15-teilige Artikelreihe zu Entitäten, NLP & semantische Suche
Weiterführenden Quellen zur BERT Architektur (Kontext: Data
Science)
https://towardsdatascience.com/why-do-we-use-embeddings-in-nlp-2f20e1b632d2
https://towardsdatascience.com/word-embeddings-for-nlp-5b72991e01d4
https://medium.com/@b.terryjack/nlp-everything-about-word-embeddings-9ea21f51ccfe
http://jalammar.github.io/illustrated-transformer/
https://towardsdatascience.com/understand-self-attention-in-bert-intuitively-cd480cbff30b
https://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/
https://multithreaded.stitchfix.com/blog/2019/07/15/give-me-jeans/
https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b
http://nlp.seas.harvard.edu/2018/04/03/attention.html
Meldet euch bei Fragen an: philip.ehring@otto.de
Danke!
Fragen?
„Positioniert Euch als
eine Autorität und
Marke in
thematischen
Bereichen !!!“
Olaf Kopp
Co-Founder / CBDO / Head of SEO
Aufgesang GmbH
kopp@aufgesang.de
Ihr findet mich bei:
www.xing.com/profile/Olaf_Kopp/
www.linkedin.com/in/olafkopp/
www.instagram.com/olaf_kopp/
twitter.com/olaf_kopp
www.facebook.com/olaf.kopp
www.amazon.de/Olaf-Kopp/e/B00BEQGURG
www.termfrequenz.de/moderatoren/olaf-
kopp/

Weitere ähnliche Inhalte

Ähnlich wie Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst.

Database Design - Introduction
Database Design - IntroductionDatabase Design - Introduction
Database Design - IntroductionThomas Moeslinger
 
Enterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeEnterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeAlexander Stocker
 
Warum die it nicht um new work herumkommt
Warum die it nicht um new work herumkommtWarum die it nicht um new work herumkommt
Warum die it nicht um new work herumkommtJohann-Peter Hartmann
 
Weiches Zeugs für harte Jungs und Mädels
Weiches Zeugs für harte Jungs und MädelsWeiches Zeugs für harte Jungs und Mädels
Weiches Zeugs für harte Jungs und MädelsNETUserGroupBern
 
Wissensmanagement und E-Learning für Industrie 4.0
Wissensmanagement und E-Learning für Industrie 4.0Wissensmanagement und E-Learning für Industrie 4.0
Wissensmanagement und E-Learning für Industrie 4.0rene_peinl
 
7 Thesen zum Recruiting der Zukunft
7 Thesen zum Recruiting der Zukunft7 Thesen zum Recruiting der Zukunft
7 Thesen zum Recruiting der ZukunftHenrik Zaborowski
 
Finden statt Suchen
Finden statt SuchenFinden statt Suchen
Finden statt Suchendidijo
 
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007Andreas Schulte
 
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeOntologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeAndreas Schmidt
 
Anforderungen haben immer Schuld
Anforderungen haben immer SchuldAnforderungen haben immer Schuld
Anforderungen haben immer SchuldFrank Düsterbeck
 
Google Discover analysieren und optimieren
Google Discover analysieren und optimierenGoogle Discover analysieren und optimieren
Google Discover analysieren und optimierenJens Fauldrath
 
Google Discover analysieren und optimieren – Seo-Day 2020
Google Discover analysieren und optimieren – Seo-Day 2020Google Discover analysieren und optimieren – Seo-Day 2020
Google Discover analysieren und optimieren – Seo-Day 2020get traction GmbH
 
Content kills your Concept?!
Content kills your Concept?!Content kills your Concept?!
Content kills your Concept?!kuehlhaus AG
 
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Fabian Meister
 
Web 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenWeb 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenAI4BD GmbH
 

Ähnlich wie Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst. (20)

Database Design - Introduction
Database Design - IntroductionDatabase Design - Introduction
Database Design - Introduction
 
1 - Einfuehrung
1 - Einfuehrung1 - Einfuehrung
1 - Einfuehrung
 
Enterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeEnterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und Fallstricke
 
Warum die it nicht um new work herumkommt
Warum die it nicht um new work herumkommtWarum die it nicht um new work herumkommt
Warum die it nicht um new work herumkommt
 
Weiches Zeugs für harte Jungs und Mädels
Weiches Zeugs für harte Jungs und MädelsWeiches Zeugs für harte Jungs und Mädels
Weiches Zeugs für harte Jungs und Mädels
 
Wissensmanagement und E-Learning für Industrie 4.0
Wissensmanagement und E-Learning für Industrie 4.0Wissensmanagement und E-Learning für Industrie 4.0
Wissensmanagement und E-Learning für Industrie 4.0
 
7 Thesen zum Recruiting der Zukunft
7 Thesen zum Recruiting der Zukunft7 Thesen zum Recruiting der Zukunft
7 Thesen zum Recruiting der Zukunft
 
Finden statt Suchen
Finden statt SuchenFinden statt Suchen
Finden statt Suchen
 
Reparier Deine Unternehmenskultur!
Reparier Deine Unternehmenskultur!Reparier Deine Unternehmenskultur!
Reparier Deine Unternehmenskultur!
 
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
 
Tim Ringel, metapeople
Tim Ringel, metapeopleTim Ringel, metapeople
Tim Ringel, metapeople
 
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeOntologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
 
Anforderungen haben immer Schuld
Anforderungen haben immer SchuldAnforderungen haben immer Schuld
Anforderungen haben immer Schuld
 
Google Discover analysieren und optimieren
Google Discover analysieren und optimierenGoogle Discover analysieren und optimieren
Google Discover analysieren und optimieren
 
Google Discover analysieren und optimieren – Seo-Day 2020
Google Discover analysieren und optimieren – Seo-Day 2020Google Discover analysieren und optimieren – Seo-Day 2020
Google Discover analysieren und optimieren – Seo-Day 2020
 
Content kills your Concept?!
Content kills your Concept?!Content kills your Concept?!
Content kills your Concept?!
 
Ich spreche mit dir doch du nicht mit mir - Sematische Verständigungsprobleme
Ich spreche mit dir doch du nicht mit mir - Sematische VerständigungsproblemeIch spreche mit dir doch du nicht mit mir - Sematische Verständigungsprobleme
Ich spreche mit dir doch du nicht mit mir - Sematische Verständigungsprobleme
 
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
 
Web 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenWeb 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werden
 
Was kann ein modernes Intranet heute?
Was kann ein modernes Intranet heute?Was kann ein modernes Intranet heute?
Was kann ein modernes Intranet heute?
 

Mehr von Olaf Kopp

Brand SEO: Suchmaschinenoptimierung für populäre Marken
Brand SEO: Suchmaschinenoptimierung für populäre MarkenBrand SEO: Suchmaschinenoptimierung für populäre Marken
Brand SEO: Suchmaschinenoptimierung für populäre MarkenOlaf Kopp
 
Content-Attribuierung - Mit System zum erfolgreichen Content-Marketing
Content-Attribuierung - Mit System  zum erfolgreichen Content-MarketingContent-Attribuierung - Mit System  zum erfolgreichen Content-Marketing
Content-Attribuierung - Mit System zum erfolgreichen Content-MarketingOlaf Kopp
 
E-Commerce Studie 2013: SEO, SEA & Social Media in Deutschland
E-Commerce Studie  2013: SEO, SEA & Social Media in DeutschlandE-Commerce Studie  2013: SEO, SEA & Social Media in Deutschland
E-Commerce Studie 2013: SEO, SEA & Social Media in DeutschlandOlaf Kopp
 
Google als semantischer Gatekeeper für erfolgreiches Content Marketing
Google als semantischer Gatekeeper für erfolgreiches Content MarketingGoogle als semantischer Gatekeeper für erfolgreiches Content Marketing
Google als semantischer Gatekeeper für erfolgreiches Content MarketingOlaf Kopp
 
Content Promotion mit PPC
Content Promotion mit PPCContent Promotion mit PPC
Content Promotion mit PPCOlaf Kopp
 
Aufgesang shop-studie2012-final-small
Aufgesang shop-studie2012-final-smallAufgesang shop-studie2012-final-small
Aufgesang shop-studie2012-final-smallOlaf Kopp
 
Suchmaschinenmarketing im E-Commerce 2011
Suchmaschinenmarketing im E-Commerce 2011Suchmaschinenmarketing im E-Commerce 2011
Suchmaschinenmarketing im E-Commerce 2011Olaf Kopp
 
SEO campixx 2011:SEO und SEA Synergieeffekte
SEO campixx 2011:SEO und SEA SynergieeffekteSEO campixx 2011:SEO und SEA Synergieeffekte
SEO campixx 2011:SEO und SEA SynergieeffekteOlaf Kopp
 

Mehr von Olaf Kopp (8)

Brand SEO: Suchmaschinenoptimierung für populäre Marken
Brand SEO: Suchmaschinenoptimierung für populäre MarkenBrand SEO: Suchmaschinenoptimierung für populäre Marken
Brand SEO: Suchmaschinenoptimierung für populäre Marken
 
Content-Attribuierung - Mit System zum erfolgreichen Content-Marketing
Content-Attribuierung - Mit System  zum erfolgreichen Content-MarketingContent-Attribuierung - Mit System  zum erfolgreichen Content-Marketing
Content-Attribuierung - Mit System zum erfolgreichen Content-Marketing
 
E-Commerce Studie 2013: SEO, SEA & Social Media in Deutschland
E-Commerce Studie  2013: SEO, SEA & Social Media in DeutschlandE-Commerce Studie  2013: SEO, SEA & Social Media in Deutschland
E-Commerce Studie 2013: SEO, SEA & Social Media in Deutschland
 
Google als semantischer Gatekeeper für erfolgreiches Content Marketing
Google als semantischer Gatekeeper für erfolgreiches Content MarketingGoogle als semantischer Gatekeeper für erfolgreiches Content Marketing
Google als semantischer Gatekeeper für erfolgreiches Content Marketing
 
Content Promotion mit PPC
Content Promotion mit PPCContent Promotion mit PPC
Content Promotion mit PPC
 
Aufgesang shop-studie2012-final-small
Aufgesang shop-studie2012-final-smallAufgesang shop-studie2012-final-small
Aufgesang shop-studie2012-final-small
 
Suchmaschinenmarketing im E-Commerce 2011
Suchmaschinenmarketing im E-Commerce 2011Suchmaschinenmarketing im E-Commerce 2011
Suchmaschinenmarketing im E-Commerce 2011
 
SEO campixx 2011:SEO und SEA Synergieeffekte
SEO campixx 2011:SEO und SEA SynergieeffekteSEO campixx 2011:SEO und SEA Synergieeffekte
SEO campixx 2011:SEO und SEA Synergieeffekte
 

Entitäten basierte Suche Teil 2: Alles was Du zum Knowledge Graph, Indexierung, NLP, Ranking, E-A-T und die semantische Suche wissen musst.

  • 1. Entitäten basierte Suche SEOcampixx 2020 „Knowledge Graph, Knowledge Vault, Hummingbird & BERT sind die zentralen Bestandteile für die Google-Suche. Entitäten sind das verbindende Element.“
  • 2. Natural Language Processing bzw. BERT Ist die Lösung „BERT bzw. Natural Language Processing ist für das Verständnis, die Klassifizierung und Organisation von Texten & Sprache und Suchanfragen bzw. Bildung von zum Suchterm passenden Korpussen einzusetzen. Entitäten spielen dabei eine immer zentralere Rolle.“
  • 3. Hallo! Mein Entitätsname ist Olaf Kopp Attributs- Wert-Paare sind … • Firma: Aufgesang • Rolle 1: Co-Founder • Beruf: Head of SEO / CBDO • Rolle 2: Blogger • Rolle 3: Autor • Rolle 4: Podcaster • Rolle 5: SEAcamp Mitveranstalter
  • 4. Olaf Kopp, Co-Founder, Head of SEO, CBDO Mein thematischer Kontext • Content-Marketing • Customer Journey Management • Digitaler Markenaufbau • Semantische SEO • Content SEO • Online-Marketing- Strategien • Leadership
  • 5. Rolle: Machine Learning Specialist Ausbildung: Fachangestellter für Medien- und Informationsdienste Bibliothek Studium: Informationsmanagement Team: DeepSense – Text Mining Foundation Themenbereiche: • Natural Language Processing & Text Mining • Information Retrieval • Semantik • Suchmaschinenoptimierung • Web Scraping
  • 6. Data Mining aus unstrukturierten Daten via Natural Language Processing
  • 8. Semantics, Natural Language Processing and Word Embeddings Philip Ehring SEO CAMPIXX 12.03.2020, Berlin
  • 9. Wie suche ich eigentlich einen … ?? ?
  • 10. Wie suche ich eigentlich einen … ?? ?
  • 11. Sicherheitsnormen, Größe Hersteller, Preis, Altersklassen, Ergonomie Gewicht, Isofix, Adac Urteil, Sicherheit, Bedienung, Schadstoffe, Verarbeitung, Reinigung, i-Size ! ? ?! Wie suche ich eigentlich einen …
  • 12. Was wäre wenn meine Suchmaschine mehr findet als ich frage… ! ? ?!
  • 13. Was ist eigentlich Kontext?
  • 14. Sowie eine Entität genug ähnliche Attribute zu einer anderen Entität aufweist, wird sie als ähnlich oder gleich wahrgenommen, sowie entsprechendes Vorwissen über die Sachlichkeit gegeben ist
  • 15. Die Wahrnehmung und Einordnung von Entitäten kann je nach Komplexität und Anhaltspunkten etwas dauern. Manchmal ist es notwendig um die Ecke zu denken …
  • 16. Unterschiedliche Perspektiven bzw. Vorwissen kann dazu führen das ein Kontext unterschiedlich wahrgenommen und eingeschätzt wird. Es gibt nicht nur eine Wahrheit …
  • 17. Ein Kontext kann sich durch äußere Einflüsse wandeln. Sprache ist lebendig und im ständigen Fluss. Heutige Systeme müssen in der Lage sein kontinuierlich zu lernen und entsprechend zu reagieren
  • 19. Kontexte können absurd erscheinen, aber trotzdem aus bestimmten Perspektiven Sinn ergeben Dies sollte von entsprechenden Systemen erkannt werden
  • 20. Kontext kann unterschiedliche Flughöhen haben und z.B. erst auf globaler Ebene Sinn ergeben
  • 22. 1 2 3 4 5 6 7 8 9 10 11 12 geblümt sein rein Muster Produkt Kleidung Oberbekleidung Textilmaterial case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=NOMINATIVE gender=FEMININE number=PLURAL person=THIRD case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=INDICATIVE number=SINGULAR person=THIRD tense=PRESENT case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD Material case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=INDICATIVE gender=FEMININE number=SINGULAR person=THIRD tense=PRESENT case=DATIVE gender=MASCULINE number=SINGULAR person=THIRD case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD Quelle: https://explosion.ai/demos/displacy, https://cloud.google.com/natural-language?hl=de Natural Language Processing
  • 23. Data Mining via NLP Entitäten-Analyse Quelle: Entitäten-Analyse in der Natural Language Processing API
  • 24. Data Mining Offene Extrahierung über Natural Language Processing bzw. BERT Quelle: Entitäten-Analyse in der Natural Language Processing API
  • 25. Data Mining via NLP Merken! Subjekte, Objekte bzw. Substantive sind Entitäten!
  • 26. 1 2 3 4 5 6 7 8 9 10 11 12 geblümt sein rein Muster Produkt Kleidung Oberbekleidung Textilmaterial case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=NOMINATIVE gender=FEMININE number=PLURAL person=THIRD case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=INDICATIVE number=SINGULAR person=THIRD tense=PRESENT case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD Material case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD case=INDICATIVE gender=FEMININE number=SINGULAR person=THIRD tense=PRESENT case=DATIVE gender=MASCULINE number=SINGULAR person=THIRD case=NOMINATIVE gender=FEMININE number=SINGULAR person=THIRD Quelle: https://explosion.ai/demos/displacy, https://cloud.google.com/natural-language?hl=de Natural Language Processing
  • 27. Synonyme „Notebook“ = „Laptop“ Quelle: https://de.wikipedia.org/wiki/Homograph Sprache weist Mehrdeutigkeiten auf
  • 28. „Sie alle stellten fest, dass die semantische Ähnlichkeit zwischen zwei natürlichsprachlichen Ausdrücken oder einzelnen Wörtern proportional zur Ähnlichkeit zwischen den Kontexten ist, in denen die Wörter oder Ausdrücke verwendet werden.“ Z. S. Harris (1951) Salton and Lesk (1965) Koll (1979) Dumais (1988) Deewester (1990) Isbell (1998) Quelle: Hobson, Lane; Howard, Cole; Hapke, Hannes Max (2019): Natural Language Processing in Action Die Bedeutung eines Wortes
  • 29. . Wir können blitzschnell differenzieren, aber … ?! !
  • 30. . Modelle benötigen etwas mehr Vorlaufzeit … ?? ?
  • 31. Google ist in der Lage mit Hilfe von Kontext zu differenzieren …
  • 32. Google ist in der Lage mit Hilfe von Kontext zu differenzieren …
  • 33. Ein Verständnis ist noch nicht ganz gegeben …
  • 34. Ein Verständnis ist noch nicht ganz gegeben …
  • 35. Wie funktionieren Word Embeddings?
  • 36. . Computer sind in der Lage mit GPS Entfernungen im Raum zu berechnen Entfernung von Hamburg nach Mountain View sind 8.900 km
  • 37. . Semantische Fragestellungen passen allerdings nicht hinein … ?? ?
  • 38. Wir brauchen einen anderen Raum! . ?! ?
  • 39. Und zeigen dem Modell jede Menge Kontext zum differenzieren Kontext
  • 40. Und zeigen dem Modell jede Menge Kontext Kontext .
  • 41. Und zeigen dem Modell jede Menge Kontext Kontext .
  • 42. Bei kleinen Systemen lässt sich dies interaktiv visualisieren …
  • 43. Wir wissen das entsprechende semantische Systeme funktionieren, da wir bei der Sichtung der Ergebnisse ein positives Feedback Entgegenbringen und entsprechende Systeme frequentieren. Wir wissen allerdings nicht wieso es funktioniert und wie unser Gehirn die entsprechende Information verarbeitet, speichert und daraus Wissen abstrahiert.
  • 44. Es gibt eine Vermutung …
  • 45. Was machen also all die neuen Embedding-Systeme anders? ALBERT GPT-2 T5 RoBERTa ALBERT V2 ERNI E XLNet DistilBERT Transformer-XLBERT
  • 46. Der größte Unterschied zwischen klassischen und contextual embeddings … classic word embedding am Beispiel word2vec contextual embeddings am Beispiel BERT Figur Figur – Konzept / Körper Figur – Darstellung / Miniatur
  • 47. Der größte Unterschied zwischen klassischen und contextual embeddings … classic word embeddings am Beispiel word2vec contextual embeddings am Beispiel BERT Quelle: https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/, https://www.smartcat.io/blog/2017/word2vec-the-world-of-word-vectors/, https://medium.com/sciforce/googles-bert-changing-the-nlp-landscape-5f4a7bf65cc5 Es werden alle Worte im ausgewählten Kontext berücksichtigt Welche Worte einen geeigneten Kontext, vom dem gelernt werden kann, darstellen ermittelt das Modell selbstständig
  • 49. Wie nutzen wir diese Technologie im Haus?
  • 50. Wie nutzen wir diese Technologie im Haus?
  • 51. Wie nutzen wir diese Technologie im Haus?
  • 52. Wie nutzen wir diese Technologie im Haus?
  • 53. Wie nutzen wir diese Technologie im Haus?
  • 54. Wie nutzen wir diese Technologie im Haus?
  • 55. Wie nutzen wir diese Technologie im Haus?
  • 56. Im Prinzip ja, aber diese Antonyme, da hilft nur ein Knowledge Graph…
  • 57. Wohin geht die Reise?
  • 58. RETRIEVAL & SCORING Index Bilder News Bücher Dokumente VideosFlüge Knowledge Graph Query-Processor (Rankbrain) Entität Entität Entität Entität Entität Entität Entität ? Entitäten- Schnittstelle Scoring-Engine (Hummingbird) Personalisierung Suchintention Cleaning-Engine • Standort • Suchhistorie • Endgerät • Duplikats – Bereinigung • Spam- Herabstufung • Sitelink-Ergänzung © Olaf Kopp, Aufgesang GmbH
  • 59. Entitäten beim Search Query Processing Termbasiertes und Entitätenbasiertes Query – Entity Matching Term-basierte AusgabeEntitäten-basierte Ausgabe
  • 60. Entitäten und Ranking Index Bilder News Bücher Dokumente VideosFlüge Knowledge Graph Query-Processor (Rankbrain) Entität Entität Entität Entität Entität Entität Entitäten- Schnittstelle Scoring-Engine (Hummingbird) Personalisierung Cleaning-Engine Scoring & Sortierung Trust & Autorität © Olaf Kopp, Aufgesang GmbH
  • 61. Entitäten und E-A-T “Another problem we were having was an issue with quality and this was particularly bad (we think of it as around 2008 2009 to 2011) we were getting lots of complaints about low-quality content and they were right. We were seeing the same low-quality thing but our relevance metrics kept going up and that’s because the low- quality pages can be very relevant this is basically the definition of a content form in our vision of the world so we thought we were doing great our numbers were saying we were doing great and we were delivering a terrible user experience and turned out we weren’t measuring what we needed to so what we ended up doing was defining an explicit quality metric which got directly at the issue of quality it’s not the same as relevance …. and it enabled us to develop quality related signals separate from relevant signals and really improve them independently so when the metrics missed something what ranking engineers need to do is fix the rating guidelines… or develop new metrics.” Quelle: Paul Haahr, SMX West 2016 – How Google Works: A Google Ranking Engineer’s Story
  • 62. Entitäten und E-A-T For the most part, we do try to understand the content and the context of the pages individually to show them properly in search. There are some things where we do look at a website overall though. So for example, if you add a new page to a website and we’ve never seen that page before, we don’t know what the content and context is there, then understanding what kind of a website this is helps us to better understand where we should kind of start with this new page in search. So that’s something where there’s a bit of both when it comes to ranking. It’s the pages individually, but also the site overall. I think there is probably a misunderstanding that there’s this one site-wide number that Google keeps for all websites and that’s not the case. We look at lots of different factors and there’s not just this one site-wide quality score that we look at. So we try to look at a variety of different signals that come together, some of them are per page, some of them are more per site, but it’s not the case where there’s one number and it comes from these five pages on your website. Quelle: John Müller, Google Webmaster Hangout, 2016
  • 63. Entitäten und Ranking Klassisches Information Retrieval meets Entitäten Scoring-Engine (Hummingbird) Auswahl und Scoring der Top-n Dokumente über z.B. statististische Textanalyse (TF-IDF, Entitäten-Frequenz …) Scoring nach weiteren Faktoren wie interne Verlinkung, Ladezeit, vielleicht CTR und weitere Nutzersignale … Berücksichtigung Autorität und Trust von Autor und Publisher unterschiedlich gewichtet nach Branche , Keywords …
  • 64. Entitäten und Ranking Mögliche Faktoren auf Dokumentenebene • Entitäten Frequenz in Dokumenten • TF-IDF für Entitäten • Nähe der Entität im Knowledge Graph zur Entität im Dokumenten-Graph. Je näher sich die Graphen sind desto höher ein Confidence Score. Dieser Confidence Score kann auch als Messung der Glaubwürdigkeit genutzt werden.
  • 65. Entitäten und Ranking Google Patent In diesem Patent wird beschrieben wie einem Nutzer aufgrund seines Interesses an bestimmten Themen bzw. Entitäten Dokumente in einer bestimmten Reihenfolge angezeigt werden. Die Dokumente werden anhand der Entitäten-Frequenz gerankt. Auch eine inverse Entitäten-Frequenz analog zur Inverse Document Frequency (IDF) kann eine Rolle spielen. Den Dokumenten werden über Annotationen Themen und Entitäten zugeordnet. Quelle: Document ranking based on entity frequency, US9679018B1
  • 66. Entitäten und Ranking Google Patent Das Patent beschreibt wie die Nähe von Begriffen in einem Text aufgrund einer vorliegenden semantischen Struktur ermittelt werden kann. Zudem beschreibt es eine Methode, die Dokumente basierend auf einen Distance Value oder zu deutsch Entfernungs-Wert hinsichtlich einer Suchanfrage zu ranken. Die Entfernung kann basierend darauf gemessen werden, wie nahe Begriffe semantisch und nicht visuell beieinander liegen. Damit stellt dieses Patent eine sinnvolle Ergänzung zu den Ansätzen von BERT dar. Quelle: Document ranking based on semantic distance between terms in a document, US7716216B1
  • 67. Entitäten und Ranking Google Patent Es beschreibt eine Methode wie Google Dokumente zu einer Suchanfrage mit Entitäten-Bezug ermitteln könnte, um diesen in in den Suchergebnissen anzuzeigen. “The systems and methods can generate or use a form of selection criteria that is based on properties of entities mentioned in queries, rather than based on keywords and synonyms of keywords mentioned in queries.” Abgleich zwischen dem Knowledge Graph und den Dokumenten-Graphen. Je näher sich die Graphen sind desto höher ein Confidence Score. Quelle: Selecting content using entity properties, US9542450B1
  • 68. Entitäten und Ranking Google Patent Dieses Patent beschreibt wie man aufgrund eines Dokuments einen Graphen für die jeweilige Entität erstellen kann. Dadurch entstehen eine Reihe an Quelle- Daten-Graphen, die nach der jeweiligen Entität, einer Beziehung zu einer Nebenentität (Objekt), Art der Beziehung (Prädikat)oder Typ des Quelldokuments geclustert werden können. Cluster in denen die Dokumente ähnliche oder gleiche Aussagen zu einer Entität enthalten gelten als vertrauenswürdiger als Cluster in denen es zu Widersprüchen zwischen den Dokumenten kommt. Über diesen Weg lassen sich dann auch neue Entitäten und Attribute für den Knowledge Graph/Knowledge Vault ermitteln und die Glaubwürdigkeit einer Quelle ermitteln.. Quelle: Automatic discovery of new entities using graph reconciliation
  • 70. Entitäten und E-A-T Autor und Publisher
  • 71. Entitäten und E-A-T Wie kann Google die Beziehung zwischen Domain bzw. Dokument und Entität herstellen? Olaf Kopp Sem- deutschland.de Gastbeitrag auf Zielbar.de Linkedin- Profil Interview bei Search Camp Speaker auf der SEOcampixx
  • 72. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit • Backlinks mit semantisch passenden Ankertexten bzw. im semantisch passenden Umfeld • Linkbasierte Nähe zu autoritären Seed-Sites • Vererbung eines Trust-Ranks über Links • Aufbauen einer Bekanntheit (Suchvolumen, Links, Anzahl der Nennungen in Fremdmedien, sozialen Netzwerken …)
  • 73. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit “For Page Quality rating, you must also look for outside, independent reputation information about the website. When the website says one thing about itself, but reputable external sources disagree with what the website says, trust the external sources.” Quelle: Quality rater Guidelines „Bekanntheit/Bedeutung: Damit ist der Bekanntheitsgrad eines Unternehmens gemeint. Manche Orte oder Dinge sind bekannter als andere. Dies wird im Ranking der lokalen Suchergebnisse berücksichtigt. So erscheinen beispielsweise berühmte Museen, Hotels oder Handelsmarken, die vielen Nutzern ein Begriff sind, auch in den lokalen Suchergebnissen sehr wahrscheinlich an herausragender Stelle. Die Bekanntheit bzw. Bedeutung ergibt sich darüber hinaus aus Informationen, die wir aus dem Web – beispielsweise über Links, aus Artikeln oder aus Verzeichnissen – über ein Unternehmen beziehen.“ Quelle: https://support.google.com/business/answer/7091?hl=de “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.” Quelle: Gary Illyes, Brighton SEO 2017
  • 74. Entitäten und E-A-T Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit Es beschreibt wie aufgrund der Nähe zu ausgewählten Seed-Websites ein Ranking-Score für verlinkte Dokumente erstellt werden kann. Dabei werden die Seed-Seiten selbst individuell gewichtet. Laut dem Patent müssen diese Seed- Seiten manuell ausgewählt werden und die Anzahl sollte limitiert sein, um Manipulation vorzubeugen. Die Länge eines Links zwischen eine Seed-Seite und dem zu rankenden Dokument kann z.B. über folgend Kriterien ermittelt werden: Position des Links • die Schriftart des Links • Grad der thematischen Abweichung der Quellseite • Anzahl ausgehender Links der Quellseite
  • 75. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit We first select a small set of seed pages to be evaluated by an expert. Once we manually identify the reputable seed pages, we use the link structure of the web to discover other pages that are likely to be good. In this paper we discuss possible ways to implement the seed selection and the discovery of good pages.
  • 76. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Im Patent wird beschrieben wie das Ranking-Scoring von Dokumenten aufgrund eines Trust-Labels ergänzt wird. Diese Informationen können aus dem Dokument selbst oder aus verweisenden Fremd-Dokumenten in Form von Linktexten oder anderen Informationen bezüglich des Dokuments bzw. der Entität sein. Diese Labels werden mit der URL verknüpft und in einer Annotation- Datenbank erfasst. “A document’s trust factor is a function of the trust ranks associated with the entities have labeled the document with labels that match the query labels. The search engine 180 adjusts each document’s underlying information retrieval score using the document’s trust factor, and then reranks the search results using the adjusted scores.” Quelle: Search result ranking based on trust
  • 77. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Kriterien für einen Kredibilitäts- und Reputations-Faktors für Autoren: • wie lange der Autor bereits nachweislich Content in einem Themenbereich produziert • Bekanntheitsgrad des Autors • Bewertungen der veröffentlichten Inhalte durch Nutzer • Wenn Inhalte des Autors von einem anderen Publisher mit überdurchschnittlichen Bewertungen veröffentlicht werden • Die Anzahl der durch den Autor veröffentlichten Inhalte • Wie lange die letzte Veröffentlichung des Autors her ist • Die Bewertungen bisheriger Veröffentlichungen ähnlichen Themen des Autors • Anzahl der Verweise auf die Inhaltes eines Autors insgesamt • Anteil der Dokumente, die ein Autor zu einem thematischen Korpus beigesteuert hat.
  • 78. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Es beschreibt wie eine Suchmaschine Dokumente unter Einfluss eines Kredibilitäts-Faktors und Reputation- Score des Autors ranken kann. • Ein Autor kann mehrere Reputation-Scores haben, je nachdem zu wie viel verschiedenen Themen er Inhalte publiziert. • Der Reputation-Score eines Autors ist unabhängig vom Publisher. • Der Reputation-Score kann zurückgestuft werden wenn Duplikate von Inhalten oder Auszüge mehrfach veröffentlicht werden. • Der Reputation-Score kann durch die Anzahl der Verlinkungen der veröffentlichten Inhalte beeinflusst werden. Quelle: Credibility of an author of online content
  • 79. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Faktoren für ein Autoren-Scoring: • Anzahl der Verweise auf die Inhaltes eines Autors insgesamt • Anteil der Dokumente, die ein Autor zu einem thematischen Korpus beigesteuert hat.
  • 80. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Es beschreibt die Verfeinerung von Suchergebnissen nach einem Autoren- Scoring inkl. einem Citation-Scoring. Das Citation-Scoring basiert auf der Anzahl der Verweise auf die Dokumente eines Autors. Ein weiteres Kriterium für das Autor-Scoring ist der Anteil der Inhalte, die ein Autor zu einem Korpus an Dokumenten beigesteuert hat. Quelle: SYSTEMS AND METHODS FOR RE-RANKING RANKED SEARCH RESULTS
  • 81. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit • Richtigkeit der veröffentlichten Informationen im Abgleich mit der „gängigen Meinung“ bzw. wissenschaftlichen Erkenntnissen (KBT) Dazu die wissenschaftliche Arbeit Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources. Über diesen Ansatz können Quellen mit einem „Trustworthiness-Score“ bewertet werden, ohne den Faktor Popularität einfließen zu lassen. Websites, die häufig falsche Informationen bereitstellen werden abgewertet. Websites, die Informationen im Einklang mit dem generellen Konsens veröffentlichen werden belohnt. “We propose a new approach that relies on endogenous signals, namely, the correctness of factual information provided by the source. A source that has few false facts is considered to be trustworthy.” “We call the trustworthiness score we computed Knowledge-Based Trust (KBT). On synthetic data, we show that our method can reliably compute the true trustworthiness levels of the sources.”
  • 82. Entitäten und E-A-T Aufbau von thematischer Entitäten-Relevanz und Glaubwürdigkeit Weitere Kriterien zur E-A-T-Bewertung von Autoren und Publishern: • Nutzer-Signale wie CTR bei Dokumenten des Publishers / Autors • Nennungen des Autors / Publishers in Best-Of-Listen • Preise und Awards, die der Autor / Publisher gewonnen hat • Kookkurrenzen des Autors / Publishers in Zusammenhang mit Begriffen aus dem Themen-Umfeld
  • 83. Entitäten und E-A-T Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit In diesem Patent wird beschrieben, wie über Vektorraumanalysen ein Klassifizierungs-System für Websites in einer bestimmten Wissens-Domäne (Thema) automatisiert selbst lernend erstellt wird. Dieses Klassifizierungssystem kann für die Bewertung neuer Inhalte als Benchmark genutzt werden. So fallen alle Inhalte, die unterhalb eines Schwellenwerts liegen auf ein weiteres Scoring verzichtet werden. Bwertung aufgrund von • Text • Bildern • Andere Bestandteile des Contents wie z.B. Links • Eine Kombination aus diesenQuelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND CLASSIFY WEBSITE, WO2020033805
  • 84. Entitäten und E-A-T Aufbau von thematische Entitäten-Relevanz und Glaubwürdigkeit • Websites können anhand des Textes, der Bilder und der darin enthaltenen Links klassifiziert werden • Qualitätsbewertungen klassifizierter Websites können einen Hinweis auf die Autorität oder die Relevanz einer Website bezogen auf eine bestimmte Wissensdomäne sein oder beides • Labels, die zur Klassifizierung von Websites verwendet werden, können Informationen über die Entität hinter einer Website (Publisher), die auf der Website beschriebene Branche/Thema und den Autor beinhalten • Eine Website kann für mehrere Wissensdomänen klassifiziert werden.Quelle: WEBSITE REPRESENTATION VECTOR TO GENERATE SEARCH RESULTS AND CLASSIFY WEBSITE, WO2020033805
  • 85. Entitäten und E-A-T Ist das Patent aktiv? Quelle: seosuedwest.de
  • 86. Entitäten und E-A-T Die Bewertung der Qualität scheint schon gut zu funktionieren
  • 87. Entitäten und E-A-T Vererbung von Entitäten-Relevanz Olaf Kopp Sem- deutschland.de Gastbeitrag auf Zielbar.de Linkedin- Profil Interview bei Search Camp Speaker auf der SEOcampixx
  • 88. Entitäten und E-A-T Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
  • 89. Entitäten und E-A-T Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
  • 90. Entitäten und E-A-T Entitäten Relevanz der Domain mit dem Keyword Planer prüfen
  • 91. Fazit Was können SEOs und (Content-)Marketer daraus lernen? Was verändert sich für SEOs und muss ich mich mit NLP & Entitäten beschäftigen? • Die Entwicklung ist ein jahrelanger langsamer Prozess. Deswegen merken wir auch keine großen Veränderungen durch die Einführungen von Hummingbird, Rankbrain und BERT. • Der Prozess nimmt seit 1-2 Jahren durch das Zusammenspiel aus Natural Language Processing und Machine Learning an Fahrt. • Sich mit der grundsätzlichen Funktionsweise von modernen semantischen Suchmaschinen zu beschäftige macht Sinn, um zu beurteilen was früher oder später nicht mehr funktioniert oder jetzt schon von gestern ist. • SEO-Verantwortliche werden immer mehr zur Schnittstellen-Position zwischen Technik, Redaktion, Marketing und PR. „Ein isolierter SEO wird zukünftig keinen Erfolg mehr haben.“
  • 92. Fazit Was können SEOs und (Content-)Marketer daraus lernen? Mach es Google einfach Deine Inhalte richtig einzuordnen. • Schreib in einfachen Satzkonstrukten und nicht in Schachtelsätzen. • Versuch auf Personalpronomen in Sätzen zu verzichten. • Nutze Adjektive und Adverbien nur wenn unbedingt notwendig für das Verständnis des Satzes. • Verzichte auf Geschwafel und bla, bla, bla … Redudziere Dich beim Schreiben auf das Wesentliche. • Strukturiere Inhalte mit logischen • Absätzen • Zwischenüberschriften • Nutze TF-IDF-Analysen und integriere die relevanten Begriffe im Text, um den semantischen Kontext zu verbessern.
  • 93. Fazit Was können SEOs und (Content-)Marketer daraus lernen? Mach es Google einfach Deine Entität und die digitalen Abbilder und Profile zu erkennen. • Verknüpfe/Verlinke die Repräsentanzen Deiner Entität wie z.B. Domains, Apps, Youtube-Kanäle, Social Media Profile … miteinander. • Verlinke Deine Repräsentanzen mit Autoren-Profilen auf z.B. Amazon und zurück (wenn vorhanden) • Nutze Linktexte mit Deinem Entitätsnamen, um auf Deine Repräsentanzen zu verlinken
  • 94. Fazit Was können SEOs und (Content-)Marketer daraus lernen? Verbesserung der Entitäten-Relevanz (E-A-T) • Positioniere Deine Entität in thematischen Kontexten • Verlink Deine themenrelevante Fachpublikationen von der eigenen Website und Euren Social Media Profilen. • Verbessere die CTR auf Publikationen von Dir • Baut Links aus semantisch passenden Umfeldern auf • Beeinflusse Kookkurrenzen zwischen Eurer Marke und wichtigen Begriffen in Suchanfragen z.B. über • Offline-Werbung (TV-Werbung, Flyer, Anzeigen …) • PR • Schreib Gastbeiträge • Geb Interviews • Mach Influencer Marketing • Organisiere Kooperationen (z.B. mit Lieferanten, Partnern … ) • Mach PR • Mach Content-Marketing • Sorg für Buzz in sozialen Netzwerken rund um Deine Entität • …
  • 95. THEMA + MARKE BEI GOOGLE TV-Kampagnen am Beispiel Home2go
  • 96. THEMA + MARKE BEI GOOGLE TV-Kampagnen am Beispiel hometogo
  • 97. Fazit Prognose „Ein isolierter SEO wird zukünftig keinen Erfolg mehr haben.“
  • 98. Fazit Meinung „Je eindeutiger Google die Positionierung des Unternehmens, Autors, Publishers… identifizieren kann, desto leichter wird es, die mit dieser Entität verknüpften thematisch relevanten Inhalten zu ranken.“
  • 99. Fazit! Meinung „Positioniert Euch für Google erkennbar als eine Autorität und Marke in den relevanten thematischen Bereichen !!!“
  • 100. Fazit Aus der SMX-Keynote 2014 „The SEO Revolution Will Not Be Televised”, Rand Fishkin
  • 101. Weitere Informationen 15-teilige Artikelreihe zu Entitäten, NLP & semantische Suche
  • 102. Weiterführenden Quellen zur BERT Architektur (Kontext: Data Science) https://towardsdatascience.com/why-do-we-use-embeddings-in-nlp-2f20e1b632d2 https://towardsdatascience.com/word-embeddings-for-nlp-5b72991e01d4 https://medium.com/@b.terryjack/nlp-everything-about-word-embeddings-9ea21f51ccfe http://jalammar.github.io/illustrated-transformer/ https://towardsdatascience.com/understand-self-attention-in-bert-intuitively-cd480cbff30b https://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/ https://multithreaded.stitchfix.com/blog/2019/07/15/give-me-jeans/ https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b http://nlp.seas.harvard.edu/2018/04/03/attention.html Meldet euch bei Fragen an: philip.ehring@otto.de
  • 103. Danke! Fragen? „Positioniert Euch als eine Autorität und Marke in thematischen Bereichen !!!“ Olaf Kopp Co-Founder / CBDO / Head of SEO Aufgesang GmbH kopp@aufgesang.de Ihr findet mich bei: www.xing.com/profile/Olaf_Kopp/ www.linkedin.com/in/olafkopp/ www.instagram.com/olaf_kopp/ twitter.com/olaf_kopp www.facebook.com/olaf.kopp www.amazon.de/Olaf-Kopp/e/B00BEQGURG www.termfrequenz.de/moderatoren/olaf- kopp/

Hinweis der Redaktion

  1. Hälfte der zeit
  2. Shit you know: „Kindersitz mit allen ECE-Normen“ Shit you know you don‘t know: „Welche ECE Normen benötigt ein Kindersitz in der EU?“ Shit you don‘t know you don‘t know: „?!#“ – weitere Kindersitz Attribute, welche im EU-Kontext für ein sicheres Modell sprechen
  3. Shit you know: „Kindersitz mit allen ECE-Normen“ Shit you know you don‘t know: „Welche ECE Normen benötigt ein Kindersitz in der EU?“ Shit you don‘t know you don‘t know: „?!#“ – weitere Kindersitz Attribute, welche im EU-Kontext für ein sicheres Modell sprechen
  4. Shit you know: „Kindersitz mit allen ECE-Normen“ Shit you know you don‘t know: „Welche ECE Normen benötigt ein Kindersitz in der EU?“ Shit you don‘t know you don‘t know: „?!#“ – weitere Kindersitz Attribute, welche im EU-Kontext für ein sicheres Modell sprechen
  5. Beziehungender Satzbestandteile -> Dependency Parsing / Syntaxanalyse Position eines Wortes innerhalb eines Satzes Wortart eines Satzbestandteils -> Part of Speech Tagging Lemmatisierung -> zurückführung eines Wortes auf die jeweilige Grundform Zuordnung zu Konzepten/Klassen -> Named Entity Recognition Morphologie -> Annotation von Flexionsformen
  6. Beziehungender Satzbestandteile -> Dependency Parsing / Syntaxanalyse Position eines Wortes innerhalb eines Satzes Wortart eines Satzbestandteils -> Part of Speech Tagging Lemmatisierung -> zurückführung eines Wortes auf die jeweilige Grundform Zuordnung zu Konzepten/Klassen -> Named Entity Recognition Morphologie -> Annotation von Flexionsformen
  7. Das praktische an diesem dualen System bei der Interpretation von Suchanfragen ist, dass auch Ergebnisse ausgegeben werden können, wenn in einem Suchterm nach keiner Entität gesucht wird.
  8. Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
  9. Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
  10. Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
  11. Um die Performance zu verbessern wäre es noch möglich die verbundenen Entitäten und deren Gewichtung pro Dokument im Dokumenten-Index zu hinterlegen. Diese Art des Entitäten basierten Scorings lässt sich einfach auf eine klassische Keyword-basierte Suche aufsetzen bzw. man kann beide Verfahren für sich alleine als auch kombiniert anwenden.
  12. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  13. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  14. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  15. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  16. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  17. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  18. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  19. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  20. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  21. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  22. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  23. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  24. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  25. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  26. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  27. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  28. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  29. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  30. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”
  31. “If you publish high-quality content that is highly cited on the internet — and I’m not talking about just links, but also mentions on social networks and people talking about your branding, crap like that. Then you are doing great.”