Becoming the worlds‘ best
crawled domain!
Effizienz, Erreichbarkeit, Größe, Priorisierung & Geschwindigkeit!
Bastian Grimm, Peak Ace AG | @basgr
Ziele von Crawl-Rate &
-Budget Optimierung?
Die Ziele für Crawl-Budget & Crawl-Rate
Optimierung?
1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
Die Ziele für Crawl-Budget & Crawl-Rate
Optimierung?
1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und
damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index
Die Ziele für Crawl-Budget & Crawl-Rate
Optimierung?
1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und
damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index
3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so
dass selbige schnellstmöglich auch via Google auffindbar sind
Die Ziele für Crawl-Budget & Crawl-Rate
Optimierung?
1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und
damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index
3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so
dass selbige schnellstmöglich auch via Google auffindbar sind
4. Schonender bzw. effizienter Umgang mit Ressourcen im Crawl-Prozess
(Serverinfrastruktur sowie Traffic)
Was beeinflusst das
„Crawl-Budget“?
Welche Faktoren beeinflussen das Crawl-
Budget einer Domain?
1. Alter der Domain: Desto älter, desto mehr Vertrauen
2. Linkprofil (Authority / Trust): Desto stärker das Linkprofil insgesamt,
desto mehr Budget
3. Größe & Aktualität: Content Wachstum & Freshness
4. Erreichbarkeit: Die “richtigen” Links & HTTP Response Codes
5. Priorisierung: Die wichtigen Inhalte zuerst!
6. Effizienz: Duplicate Content, Thin Pages & Indexierungsregeln
7. Geschwindigkeit: As fast as possible!
Keine einfach
„ablesbare“ Zahl!
PageRank als Crawling Faktor
„Interner“ PR als Priorisierung für den Crawling-Prozess
• Keine wirklich ein-
sehbare Zahl
• Zugeteilt pro Hostname
sowie pro Subdomain
• Interner PageRank !=
Toolbar PageRank
Und was ist die
„Crawl-Rate“?
„Die Crawl-Rate definiert die Anzahl an
Crawl-Anfragen (Zugriffen) durch den
Crawler einer Suchmaschine (Google) in
einem bestimmten Zeitraum (bspw. 24h)
auf eine Domain (oder ein Verzeichnis).“
Ausgangspunkt: Google Search Console
Was will Google? Jeden Tag möglichst viele,
relevante URLs extrem schnell herunterladen!
http://g.co/searchconsole
Ausgangspunkt: Google Search Console
Sowas sollte nicht passieren! Jemand eine Idee?
Sie haben ihr CMS “ausgetauscht”!
(ME DURING THE CONFERENCE CALL…)
Nutze die Anzahl der Links und die Linktiefe
um den Crawler zu kontrollieren
#1 Die richtige Architektur
Das Wichtigste? Die Startseite!
Idealerweise sind alle Inhalte max. 3-5 Klicks entfernt!
1.
2.
3.
Priorisiere URLs anhand von Suchvolumen
Homepage > Kategorien > … > Detail-Seiten
Wer “speziell” sucht, erwartet keine generischen LPs!
Mehr zum Thema Keywordrecherche: http://bg.vu/sesldn14
Lesbarkeit der Links sicherstellen
Einfach zu testen: JavaScript und CSS deaktivieren
http://chrispederick.com/work/web-developer/ & http://www.feedthebot.com/spiderview.html
webcache.googleusercontent.com/search?q=cache:www.domain.com&strip=1
Für eigene Domains: Fetch & Render
Google’s Search Console: Lesbarkeit prüfen und
Darstellungen vergleichen (CSS & JS freigeben)
Es geht Google nur um eines: Effizienz!
Ein Maximum an einzigartigen Seiten, (fast) keine
Duplikate, alle Inhalte crawlbar, etc.
http://pa.ag/deep-crawl
Tiefe des Craw-Prozesses überwachen!
Kalender können bspw. „unendliche“ URLs erzeugen!
Gut optimiert
(Gleichmäßige Verteilung
über Ebene 1-5, die
wichtigsten Seite „nahe“
der Startseite)
Schwierig
Alle Inhalte auf einer Ebene
bzw. extrem viele Inhalte
auf Ebene 6 – 14…
Sicherstellen, dass jede Unterseite den
bestmöglichen, internen Link bekommt.
#2 Die “richtigen” Links
Implementierung von Breadcrumbs
Der “richtige” Link und der wertvollste Anchortext!
https://schema.org/breadcrumb
URL ersetzt durch Breadcrumb-Pfad:
Source: http://pa.ag/1GjAMSb
Kontextuelle Relevanz berücksichtigen
Kunden, die dieses Produkt gekauft haben, kauften…
Sowie semantisch passende Verlinkungen:
Einen Schuh mit “passendem” Outfit zu verbinden ist
jedoch nicht immer ganz einfach! Richtig, liebe Damen?
Leicht
Schwierig
Schema.org Link-Relations
Strukturiertes Mark-Up um Links näher zu beschreiben:
Gib deinem Besucher Nutzen & Konsistenz
Sofern ich interessiert bin, kann ich direkt zum
passenden Artikel weiter klicken… Kontext is King!
http://www.stateofdigital.com/traffic-quality-indicator/
“Quick Wins” brauchen ebenfalls Links
Schwellen-Keywords von Seite 2 auf 1 schieben
(z.B. mit einem CMS-Modul, das das SEO-Team steuert)
Jemand eine Vermutung?
Welches Keyword könnte das gewesen sein?
Richtig: Weihnachtsgeschenke!
Richtiger Umgang mit wiederkehrenden Saisonalitäten!
Ein weiterer Versuch:
Was könnte das gewesen sein?
Suchinteresse Zeitverlauf: iPhone!
Produkt-Releases sind ähnlich wie Saisonalitäten:
Massiver SV-Anstieg (mit Peak Ace bei Veröffentlichung)
Prüfe sorgfältig, welche Seiten du in den Index lässt und
noch viel wichtiger, wie du es machst!
#3 Crawler Control
Meta Tags im Browser anzeigen:
SeeRobots Plug-in für Chrome & Firefox
http://www.seerobots.com/
Meta Robots Tag vs. robots.txt
<meta name="robots" content="noindex, follow" />
• Seiten werden gecrawlt
• Seiten werden nicht indexiert
• Seiten werden nicht in den Suchergebnissen angezeigt
User-Agent:*
Disallow: /seite.html
• Seiten werden nicht gecrawlt
• URLs werden “teilweise” indexiert
• URLs werden “teilweise” in den Suchergebnissen angezeigt
Was sind die wichtigsten Unterschiede?
URL-Pattern via robots.txt ausgeschlossen
Google zeigt URLs weiterhin in den Suchergebnissen an
Beides gleichzeitig hilft auch nicht!
Google kann Robots Meta Tags nicht lesen, wenn das
URL-Pattern via robots.txt gesperrt ist!
Wie macht man es richtig?
Für die Praxis gilt:
• Das Robots Meta Tag ist im täglichen Gebrauch für HTMLs eigentlich immer die
bessere Wahl, da es deutlich granularer eingesetzt werden kann.
• Kein Verlust von externer Linkkraft, denn diese wird nicht weitergegeben
• Kein Bruch in der internen Verlinkung; häufig sonst sehr schwer steuerbar
• Reduzieren des Indexes auf ausschließlich relevante URLs
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Bietet diese Seite wirklich signifikanten Mehrwert,
wenn ich sie für die Indexierung freigebe?
Stell dir immer die Frage:
Was nicht in den Index gehört #1
Leere (oder nahezu leere) Kategorie oder Tag-Seiten!
Was nicht in den Index gehört #2
… verschiedene Versionen einer URL, verursacht durch
gefilterte oder sortierte Inhalte!
Was nicht in den Index gehört #3
… oder dynamisch generierte Seiten wie Suchresultate!
SERP in SERP = schlechte Nutzererfahrung!
Was nicht in den Index gehört #4
.. und vieles mehr:
• verschiedene “no result-Seiten”
(keine Kommentare für Produkt A, keine Bewertungen für Produkt B, usw.)
• falsch implementierte Paginierungen
(Seite 2+ muss nicht indexiert werden, da diese idR. kein Rankingziel hat)
• Achtung bei Facettennavigationen
(wegen der Vielzahl an Kombinationen)
• mehrere Versionen einer Homepage
(z.B. index.php vs. “/” oder non-www vs. www oder https vs. non-https)
• gleicher Inhalt auf verschiedenen Domains
Wie viel Organic-Traffic haben die „noindex“-Kandidaten,
wie Filter & Sortierungen, denn wirklich?
Unsicher? Analytics Daten!
Noch besser als „noindex“ ist demnach das Löschen!
noindex geht natürlich auf
euer Crawl-Budget!
Auch hier: Weniger ist mehr; aber wenn, dann richtig!
#4 Weiterleitungen
Es gibt viele verschiedene Redirects:
http://en.wikipedia.org/wiki/List_of_HTTP_status_codes#3xx_Redirection
Und das sind nur die serverseitigen…
Und es gibt ja noch „andere“ Redirects:
• Weiterleitungen im HTML via Meta Tag: <meta refresh …>
• Simple, inline Weiterleitungen per JavaScript, z.B. mit
document.location.href=URL
• Komplexere, teils unsichtbare Weiterleitungen über externes
JavaScript, z.B. via jQuery Event Listener
• Etc.
Wichtig:
Nur weil Google diese Weiterleitungen (zum Teil) im „Fetch & Render“
erkennt, heißt das nicht, dass diese Weiterleitungen SEO kompatibel sind!
Sicherstellen, immer 301‘s zu verwenden:
https://youtu.be/6hSoXutuj0g
Mit einer Ausnahme: Language-switches
Source: http://pa.ag/1JqUcEo
• für sprach-/geo-basierte Redirects nutzt man HTTP 302 oder HTTP 303
• Google sagt, sie verstehen 301’s ebenso – aber sicher ist sicher!
Redirect-Pflege ist enorm wichtig!
Google verfolgt nur bis zu drei Redirects in einer Kette
Jeder Weiterleitungspunkt zählt in euer Crawl-Budget:
A -> 301 auf B (2x); A->B->C (3x); usw.
Warum ist das so wichtig?
Massenüberprüfung Headers / Redirects:
http://www.tomanthony.co.uk/tools/bulk-http-header-compare/
Desktop Crawler: Screaming Frog
http://www.screamingfrog.co.uk/seo-spider/
SaaS Crawling: DeepCrawl
http://pa.ag/deep-crawl
Der Redirect des armen Mannes!
#5 Canonical Tags
Canonical Tags im Auge behalten!
Allgemein gilt: Für Filter, zum Sortieren oder bei HTTP
vs. HTTPs ist die Verwendung “OK”.
Google könnte Canonicals ignorieren…
Verwendet Canonical Tags nicht als Entschuldigung
für schlechte Website-Architektur!
http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html
Is rel="canonical" a hint or a directive?
It's a hint that we honor strongly.
We'll take your preference into
account, in conjunction with other
signals, when calculating the most
relevant page […]
Aber oft passieren komische Dinge…
Es darf nur eine Rel-Canonical-Anweisung pro URL geben, nur EINE!
Absolute URLs mit Protokoll & Subdomain verwenden
Konsistenz wahren: Ein Protokoll (http vs. https), entweder www oder
non-www & konsistente Verwendung von Trailing Slashes
Rel-Canonical-Ziele müssen tatsächlich funktionieren (keine 4XX-Ziele)
Keine Canonical Tag-Verkettung, Google wird diese ignorieren!
etc.
Wird mein Canonical beachtet?
Für “non-HTML” & bei sehr großen Domains
#6 X-Robots Header
X-Robots-Tag: Indexierungssteuerung
• Gleiche (kombinierte) Anweisungen, wie für das Robots Meta Tag möglich
• Entweder kommasepariert oder auch mehrfaches Verwenden des Headers
• Individuelle Crawler Regeln funktionieren auch hier analog zum Meta Tag.
http://https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de
X-Robots Rel-Canonical Implementierung:
• Google indexiert auch PDFs, DOCs, usw. – auch diese Dateien sind bzw. können
Duplicate Content verursachen.
• Rankings – bspw. für PDF Dateien – sind eher schwierig (für den User), da eine
Navigation fehlt. Es empfiehlt sich daher zu einem PDF immer ein HTML Pendant
vorzuhalten und entsprechend dort hin per Canonical Header zu verweisen.
It’s all about site speed, especially on mobile!
#7 Site Speed
Ich bin ein SEHR ungeduldiger Mensch!
Site Speed ist ein Google-Rankingfaktor…
…bereits seit 2010!
Full Story: http://pa.ag/1t4xVs6
Die Return-to-SERP-Rate…
… natürlich ebenso ein (indirekter) Rankingfaktor!
Google forciert das Thema immer wieder:
Source: http://pa.ag/1cWFCtY
Viele Seitenbetreiber haben zugehört:
Top-4 Ergebnisse deutlich schneller als der Rest!
Source: Searchmetrics Ranking Factors 2014 (US) - http://pa.ag/10cZuU2
Die Erwartungshaltung ist eindeutig:
Diesen Ansprüchen müsst ihr gerecht werden!
“A report from Nielsen has revealed
that 47% of people expect a website to
load within 2 seconds, and 40% will
leave a website if it does not load fully
within 3 seconds.”
Quelle: http://pa.ag/1Rk8dIf
100ms machen einen (großen) Unterschied!
Amazon = 1%+ mehr Umsatz pro 100ms
1 Sek. Verzögerung = -11% Pageviews & -7% Conversions
Source: http://pa.ag/1w8IYwq
Google PageSpeed Insights als Startpunkt
Freies, web-basiertes Tool, um eine Seite anhand
diverser Regeln und best-practices zu messen
https://developers.google.com/speed/pagespeed/insights/
Was wirklich zählt? Zeit statt Note!
Vollständiger Artikel: http://pa.ag/1KjZuQQ
webpagetest.org – mit allen Funktionen:
Alles auf einen Blick: TTFB, Keep-Alive, Compression &
Caching, Image Usage, CDN & Wasserfall-Diagramme
webpagetest.org – mit allen Funktionen:
Alles auf einen Blick: TTFB, Keep-Alive, Compression &
Caching, Image Usage, CDN & Wasserfall-Diagramme
Auf diese Punkte als erstes achten
(vor allem bei neuen Webseiten)
Welche Ressourcen hängen voneinander ab?
Wie wirkt sich JavaScript auf Ladezeiten aus?
Lassen sich lange Netzwerk- & DNS-Anfragen erkennen?
Blockieren sich Netzwerk-Anfragen von der gleichen Domain?
Finden sich “visuelle Abhängigkeiten” zwischen (Sub-)Anfragen?
Treten lange und exzessive JavaScript-Ausführungen auf?
Die eigene Seite (& den Wettbewerb)
fortlaufend monitoren!
Ende April veröffentlichte sitespeed.io ein sehr cooles
Dashboard für ein sehr granulares Monitoring
http://www.peterhedenskog.com/blog/2015/04/open-source-performance-dashboard/
http://dashboard.sitespeed.io/
Leider keine Zeit, tiefer einzusteigen, daher:
Zu den Folien: http://pa.ag/unggd15
10x Ansätze um typische Probleme aufzuspüren:
Crawl-Issues identifizieren?
Google crawled GET-Formulare, POST is your friend!
Thin Content bzw. SERP in SERP Danger: Zielseiten
zus. auf “noindex”.
#1 Die interne Suche
Anzahl der Elemente pro Seite erhöhen =
weniger URLs im Pager!?
#2 Paginierungen
Haltet eure Sitemaps aktuell: Ausschließlich indexierbare
URLs, die mit HTTP Status 200 antworten!
#3 XML Sitemaps
Jede Weiterleitung zählt ins Crawl-Budget;
intern immer nur direkt auf die Zielseite verlinken!
#4 HTTP 30X (Redirect)
404’er, werden mehrfach abgerufen bevor Google
diese löscht (wenn überhaupt). 410 = gone!
(Diese URLs natürlich nicht mehr aktiv verlinken!)
#5 HTTP 404 (not found)
Google muss die jeweilige Seite erst crawlen!
Weniger Restriktionen = weniger Crawl-Overhead!
#6 Exzessive Canonical Tags
Filter und / oder Sortierungen generieren Unmengen
an mgl. URL-Kombinationen. PRG ftw!
#7 Facetted Navigation
Das POST-Redirect-GET Pattern (PRG)
Suchmaschinenfreundliche Reduzierung von Verlinkung!
Mehr lesen: http://pa.ag/1jzXn6A
Google crawled z.B. auch AJAX Calls oder
JSON-Objekte (falls verlinkt)!
#8 Achtung bei Non-HTML‘s
…url?a=b&c=d ist nicht das Gleiche wie …url?c=d&a=b!
Einheitliche Reihenfolgen; oder # als Alternative?
#9 GET-Param. Reihenfolge
#10 Echte Daten gibt’s (nur) in Logfiles!
z.B. umsonst mit ELK (Elasticsearch, Logstash, Kibana)
http://logz.io/blog/log-analysis-technical-seo/
Bastian Grimm
bg@peakace.de
twitter.com/peakaceag
facebook.com/peakaceag
peakace.de
Vielen Dank!

Crawl-Budget Optimierung - SEOday 2015

  • 1.
    Becoming the worlds‘best crawled domain! Effizienz, Erreichbarkeit, Größe, Priorisierung & Geschwindigkeit! Bastian Grimm, Peak Ace AG | @basgr
  • 2.
    Ziele von Crawl-Rate& -Budget Optimierung?
  • 3.
    Die Ziele fürCrawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
  • 4.
    Die Ziele fürCrawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index
  • 5.
    Die Ziele fürCrawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index 3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so dass selbige schnellstmöglich auch via Google auffindbar sind
  • 6.
    Die Ziele fürCrawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index 3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so dass selbige schnellstmöglich auch via Google auffindbar sind 4. Schonender bzw. effizienter Umgang mit Ressourcen im Crawl-Prozess (Serverinfrastruktur sowie Traffic)
  • 7.
  • 8.
    Welche Faktoren beeinflussendas Crawl- Budget einer Domain? 1. Alter der Domain: Desto älter, desto mehr Vertrauen 2. Linkprofil (Authority / Trust): Desto stärker das Linkprofil insgesamt, desto mehr Budget 3. Größe & Aktualität: Content Wachstum & Freshness 4. Erreichbarkeit: Die “richtigen” Links & HTTP Response Codes 5. Priorisierung: Die wichtigen Inhalte zuerst! 6. Effizienz: Duplicate Content, Thin Pages & Indexierungsregeln 7. Geschwindigkeit: As fast as possible!
  • 9.
  • 10.
    PageRank als CrawlingFaktor „Interner“ PR als Priorisierung für den Crawling-Prozess • Keine wirklich ein- sehbare Zahl • Zugeteilt pro Hostname sowie pro Subdomain • Interner PageRank != Toolbar PageRank
  • 11.
    Und was istdie „Crawl-Rate“?
  • 12.
    „Die Crawl-Rate definiertdie Anzahl an Crawl-Anfragen (Zugriffen) durch den Crawler einer Suchmaschine (Google) in einem bestimmten Zeitraum (bspw. 24h) auf eine Domain (oder ein Verzeichnis).“
  • 13.
    Ausgangspunkt: Google SearchConsole Was will Google? Jeden Tag möglichst viele, relevante URLs extrem schnell herunterladen! http://g.co/searchconsole
  • 14.
    Ausgangspunkt: Google SearchConsole Sowas sollte nicht passieren! Jemand eine Idee?
  • 15.
    Sie haben ihrCMS “ausgetauscht”! (ME DURING THE CONFERENCE CALL…)
  • 16.
    Nutze die Anzahlder Links und die Linktiefe um den Crawler zu kontrollieren #1 Die richtige Architektur
  • 17.
    Das Wichtigste? DieStartseite! Idealerweise sind alle Inhalte max. 3-5 Klicks entfernt! 1. 2. 3.
  • 18.
    Priorisiere URLs anhandvon Suchvolumen Homepage > Kategorien > … > Detail-Seiten Wer “speziell” sucht, erwartet keine generischen LPs! Mehr zum Thema Keywordrecherche: http://bg.vu/sesldn14
  • 19.
    Lesbarkeit der Linkssicherstellen Einfach zu testen: JavaScript und CSS deaktivieren http://chrispederick.com/work/web-developer/ & http://www.feedthebot.com/spiderview.html webcache.googleusercontent.com/search?q=cache:www.domain.com&strip=1
  • 20.
    Für eigene Domains:Fetch & Render Google’s Search Console: Lesbarkeit prüfen und Darstellungen vergleichen (CSS & JS freigeben)
  • 21.
    Es geht Googlenur um eines: Effizienz! Ein Maximum an einzigartigen Seiten, (fast) keine Duplikate, alle Inhalte crawlbar, etc. http://pa.ag/deep-crawl
  • 22.
    Tiefe des Craw-Prozessesüberwachen! Kalender können bspw. „unendliche“ URLs erzeugen! Gut optimiert (Gleichmäßige Verteilung über Ebene 1-5, die wichtigsten Seite „nahe“ der Startseite) Schwierig Alle Inhalte auf einer Ebene bzw. extrem viele Inhalte auf Ebene 6 – 14…
  • 23.
    Sicherstellen, dass jedeUnterseite den bestmöglichen, internen Link bekommt. #2 Die “richtigen” Links
  • 24.
    Implementierung von Breadcrumbs Der“richtige” Link und der wertvollste Anchortext! https://schema.org/breadcrumb
  • 25.
    URL ersetzt durchBreadcrumb-Pfad: Source: http://pa.ag/1GjAMSb
  • 26.
    Kontextuelle Relevanz berücksichtigen Kunden,die dieses Produkt gekauft haben, kauften…
  • 27.
    Sowie semantisch passendeVerlinkungen: Einen Schuh mit “passendem” Outfit zu verbinden ist jedoch nicht immer ganz einfach! Richtig, liebe Damen? Leicht Schwierig
  • 28.
    Schema.org Link-Relations Strukturiertes Mark-Upum Links näher zu beschreiben:
  • 29.
    Gib deinem BesucherNutzen & Konsistenz Sofern ich interessiert bin, kann ich direkt zum passenden Artikel weiter klicken… Kontext is King!
  • 30.
  • 31.
    “Quick Wins” brauchenebenfalls Links Schwellen-Keywords von Seite 2 auf 1 schieben (z.B. mit einem CMS-Modul, das das SEO-Team steuert)
  • 32.
    Jemand eine Vermutung? WelchesKeyword könnte das gewesen sein?
  • 33.
    Richtig: Weihnachtsgeschenke! Richtiger Umgangmit wiederkehrenden Saisonalitäten!
  • 34.
    Ein weiterer Versuch: Waskönnte das gewesen sein?
  • 35.
    Suchinteresse Zeitverlauf: iPhone! Produkt-Releasessind ähnlich wie Saisonalitäten: Massiver SV-Anstieg (mit Peak Ace bei Veröffentlichung)
  • 36.
    Prüfe sorgfältig, welcheSeiten du in den Index lässt und noch viel wichtiger, wie du es machst! #3 Crawler Control
  • 37.
    Meta Tags imBrowser anzeigen: SeeRobots Plug-in für Chrome & Firefox http://www.seerobots.com/
  • 38.
    Meta Robots Tagvs. robots.txt <meta name="robots" content="noindex, follow" /> • Seiten werden gecrawlt • Seiten werden nicht indexiert • Seiten werden nicht in den Suchergebnissen angezeigt User-Agent:* Disallow: /seite.html • Seiten werden nicht gecrawlt • URLs werden “teilweise” indexiert • URLs werden “teilweise” in den Suchergebnissen angezeigt Was sind die wichtigsten Unterschiede?
  • 39.
    URL-Pattern via robots.txtausgeschlossen Google zeigt URLs weiterhin in den Suchergebnissen an
  • 40.
    Beides gleichzeitig hilftauch nicht! Google kann Robots Meta Tags nicht lesen, wenn das URL-Pattern via robots.txt gesperrt ist!
  • 41.
    Wie macht manes richtig? Für die Praxis gilt: • Das Robots Meta Tag ist im täglichen Gebrauch für HTMLs eigentlich immer die bessere Wahl, da es deutlich granularer eingesetzt werden kann. • Kein Verlust von externer Linkkraft, denn diese wird nicht weitergegeben • Kein Bruch in der internen Verlinkung; häufig sonst sehr schwer steuerbar • Reduzieren des Indexes auf ausschließlich relevante URLs https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  • 42.
    Bietet diese Seitewirklich signifikanten Mehrwert, wenn ich sie für die Indexierung freigebe? Stell dir immer die Frage:
  • 43.
    Was nicht inden Index gehört #1 Leere (oder nahezu leere) Kategorie oder Tag-Seiten!
  • 44.
    Was nicht inden Index gehört #2 … verschiedene Versionen einer URL, verursacht durch gefilterte oder sortierte Inhalte!
  • 45.
    Was nicht inden Index gehört #3 … oder dynamisch generierte Seiten wie Suchresultate! SERP in SERP = schlechte Nutzererfahrung!
  • 46.
    Was nicht inden Index gehört #4 .. und vieles mehr: • verschiedene “no result-Seiten” (keine Kommentare für Produkt A, keine Bewertungen für Produkt B, usw.) • falsch implementierte Paginierungen (Seite 2+ muss nicht indexiert werden, da diese idR. kein Rankingziel hat) • Achtung bei Facettennavigationen (wegen der Vielzahl an Kombinationen) • mehrere Versionen einer Homepage (z.B. index.php vs. “/” oder non-www vs. www oder https vs. non-https) • gleicher Inhalt auf verschiedenen Domains
  • 47.
    Wie viel Organic-Traffichaben die „noindex“-Kandidaten, wie Filter & Sortierungen, denn wirklich? Unsicher? Analytics Daten!
  • 48.
    Noch besser als„noindex“ ist demnach das Löschen! noindex geht natürlich auf euer Crawl-Budget!
  • 49.
    Auch hier: Wenigerist mehr; aber wenn, dann richtig! #4 Weiterleitungen
  • 50.
    Es gibt vieleverschiedene Redirects: http://en.wikipedia.org/wiki/List_of_HTTP_status_codes#3xx_Redirection Und das sind nur die serverseitigen…
  • 51.
    Und es gibtja noch „andere“ Redirects: • Weiterleitungen im HTML via Meta Tag: <meta refresh …> • Simple, inline Weiterleitungen per JavaScript, z.B. mit document.location.href=URL • Komplexere, teils unsichtbare Weiterleitungen über externes JavaScript, z.B. via jQuery Event Listener • Etc. Wichtig: Nur weil Google diese Weiterleitungen (zum Teil) im „Fetch & Render“ erkennt, heißt das nicht, dass diese Weiterleitungen SEO kompatibel sind!
  • 52.
    Sicherstellen, immer 301‘szu verwenden: https://youtu.be/6hSoXutuj0g
  • 53.
    Mit einer Ausnahme:Language-switches Source: http://pa.ag/1JqUcEo • für sprach-/geo-basierte Redirects nutzt man HTTP 302 oder HTTP 303 • Google sagt, sie verstehen 301’s ebenso – aber sicher ist sicher!
  • 54.
    Redirect-Pflege ist enormwichtig! Google verfolgt nur bis zu drei Redirects in einer Kette
  • 55.
    Jeder Weiterleitungspunkt zähltin euer Crawl-Budget: A -> 301 auf B (2x); A->B->C (3x); usw. Warum ist das so wichtig?
  • 56.
    Massenüberprüfung Headers /Redirects: http://www.tomanthony.co.uk/tools/bulk-http-header-compare/
  • 57.
    Desktop Crawler: ScreamingFrog http://www.screamingfrog.co.uk/seo-spider/
  • 58.
  • 59.
    Der Redirect desarmen Mannes! #5 Canonical Tags
  • 60.
    Canonical Tags imAuge behalten! Allgemein gilt: Für Filter, zum Sortieren oder bei HTTP vs. HTTPs ist die Verwendung “OK”.
  • 61.
    Google könnte Canonicalsignorieren… Verwendet Canonical Tags nicht als Entschuldigung für schlechte Website-Architektur! http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html Is rel="canonical" a hint or a directive? It's a hint that we honor strongly. We'll take your preference into account, in conjunction with other signals, when calculating the most relevant page […]
  • 62.
    Aber oft passierenkomische Dinge… Es darf nur eine Rel-Canonical-Anweisung pro URL geben, nur EINE! Absolute URLs mit Protokoll & Subdomain verwenden Konsistenz wahren: Ein Protokoll (http vs. https), entweder www oder non-www & konsistente Verwendung von Trailing Slashes Rel-Canonical-Ziele müssen tatsächlich funktionieren (keine 4XX-Ziele) Keine Canonical Tag-Verkettung, Google wird diese ignorieren! etc.
  • 63.
  • 64.
    Für “non-HTML” &bei sehr großen Domains #6 X-Robots Header
  • 65.
    X-Robots-Tag: Indexierungssteuerung • Gleiche(kombinierte) Anweisungen, wie für das Robots Meta Tag möglich • Entweder kommasepariert oder auch mehrfaches Verwenden des Headers • Individuelle Crawler Regeln funktionieren auch hier analog zum Meta Tag. http://https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de
  • 66.
    X-Robots Rel-Canonical Implementierung: •Google indexiert auch PDFs, DOCs, usw. – auch diese Dateien sind bzw. können Duplicate Content verursachen. • Rankings – bspw. für PDF Dateien – sind eher schwierig (für den User), da eine Navigation fehlt. Es empfiehlt sich daher zu einem PDF immer ein HTML Pendant vorzuhalten und entsprechend dort hin per Canonical Header zu verweisen.
  • 67.
    It’s all aboutsite speed, especially on mobile! #7 Site Speed
  • 68.
    Ich bin einSEHR ungeduldiger Mensch!
  • 69.
    Site Speed istein Google-Rankingfaktor… …bereits seit 2010! Full Story: http://pa.ag/1t4xVs6
  • 70.
    Die Return-to-SERP-Rate… … natürlichebenso ein (indirekter) Rankingfaktor!
  • 71.
    Google forciert dasThema immer wieder:
  • 72.
  • 73.
    Viele Seitenbetreiber habenzugehört: Top-4 Ergebnisse deutlich schneller als der Rest! Source: Searchmetrics Ranking Factors 2014 (US) - http://pa.ag/10cZuU2
  • 74.
    Die Erwartungshaltung isteindeutig: Diesen Ansprüchen müsst ihr gerecht werden! “A report from Nielsen has revealed that 47% of people expect a website to load within 2 seconds, and 40% will leave a website if it does not load fully within 3 seconds.” Quelle: http://pa.ag/1Rk8dIf
  • 75.
    100ms machen einen(großen) Unterschied! Amazon = 1%+ mehr Umsatz pro 100ms 1 Sek. Verzögerung = -11% Pageviews & -7% Conversions Source: http://pa.ag/1w8IYwq
  • 76.
    Google PageSpeed Insightsals Startpunkt Freies, web-basiertes Tool, um eine Seite anhand diverser Regeln und best-practices zu messen https://developers.google.com/speed/pagespeed/insights/
  • 77.
    Was wirklich zählt?Zeit statt Note! Vollständiger Artikel: http://pa.ag/1KjZuQQ
  • 78.
    webpagetest.org – mitallen Funktionen: Alles auf einen Blick: TTFB, Keep-Alive, Compression & Caching, Image Usage, CDN & Wasserfall-Diagramme
  • 79.
    webpagetest.org – mitallen Funktionen: Alles auf einen Blick: TTFB, Keep-Alive, Compression & Caching, Image Usage, CDN & Wasserfall-Diagramme
  • 80.
    Auf diese Punkteals erstes achten (vor allem bei neuen Webseiten) Welche Ressourcen hängen voneinander ab? Wie wirkt sich JavaScript auf Ladezeiten aus? Lassen sich lange Netzwerk- & DNS-Anfragen erkennen? Blockieren sich Netzwerk-Anfragen von der gleichen Domain? Finden sich “visuelle Abhängigkeiten” zwischen (Sub-)Anfragen? Treten lange und exzessive JavaScript-Ausführungen auf?
  • 81.
    Die eigene Seite(& den Wettbewerb) fortlaufend monitoren! Ende April veröffentlichte sitespeed.io ein sehr cooles Dashboard für ein sehr granulares Monitoring http://www.peterhedenskog.com/blog/2015/04/open-source-performance-dashboard/
  • 82.
  • 83.
    Leider keine Zeit,tiefer einzusteigen, daher: Zu den Folien: http://pa.ag/unggd15
  • 84.
    10x Ansätze umtypische Probleme aufzuspüren: Crawl-Issues identifizieren?
  • 85.
    Google crawled GET-Formulare,POST is your friend! Thin Content bzw. SERP in SERP Danger: Zielseiten zus. auf “noindex”. #1 Die interne Suche
  • 86.
    Anzahl der Elementepro Seite erhöhen = weniger URLs im Pager!? #2 Paginierungen
  • 87.
    Haltet eure Sitemapsaktuell: Ausschließlich indexierbare URLs, die mit HTTP Status 200 antworten! #3 XML Sitemaps
  • 88.
    Jede Weiterleitung zähltins Crawl-Budget; intern immer nur direkt auf die Zielseite verlinken! #4 HTTP 30X (Redirect)
  • 89.
    404’er, werden mehrfachabgerufen bevor Google diese löscht (wenn überhaupt). 410 = gone! (Diese URLs natürlich nicht mehr aktiv verlinken!) #5 HTTP 404 (not found)
  • 90.
    Google muss diejeweilige Seite erst crawlen! Weniger Restriktionen = weniger Crawl-Overhead! #6 Exzessive Canonical Tags
  • 91.
    Filter und /oder Sortierungen generieren Unmengen an mgl. URL-Kombinationen. PRG ftw! #7 Facetted Navigation
  • 92.
    Das POST-Redirect-GET Pattern(PRG) Suchmaschinenfreundliche Reduzierung von Verlinkung! Mehr lesen: http://pa.ag/1jzXn6A
  • 93.
    Google crawled z.B.auch AJAX Calls oder JSON-Objekte (falls verlinkt)! #8 Achtung bei Non-HTML‘s
  • 94.
    …url?a=b&c=d ist nichtdas Gleiche wie …url?c=d&a=b! Einheitliche Reihenfolgen; oder # als Alternative? #9 GET-Param. Reihenfolge
  • 95.
    #10 Echte Datengibt’s (nur) in Logfiles! z.B. umsonst mit ELK (Elasticsearch, Logstash, Kibana) http://logz.io/blog/log-analysis-technical-seo/
  • 96.