Crawl-Budget Optimierung - SEOday 2015

12.402 Aufrufe

Veröffentlicht am

Meine Präsentation vom SEOday 2015 in Köln zum Thema Crawl-Budget und Crawl-Rate-Optimierung mit vielen Tipps zur Verbesserung von Auffindbarkeit, Indexierung, Geschwindigkeit sowie den "häufigsten Stolpersteinen" bei der Optimierung.

Veröffentlicht in: Marketing

Crawl-Budget Optimierung - SEOday 2015

  1. 1. Becoming the worlds‘ best crawled domain! Effizienz, Erreichbarkeit, Größe, Priorisierung & Geschwindigkeit! Bastian Grimm, Peak Ace AG | @basgr
  2. 2. Ziele von Crawl-Rate & -Budget Optimierung?
  3. 3. Die Ziele für Crawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit
  4. 4. Die Ziele für Crawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index
  5. 5. Die Ziele für Crawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index 3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so dass selbige schnellstmöglich auch via Google auffindbar sind
  6. 6. Die Ziele für Crawl-Budget & Crawl-Rate Optimierung? 1. Ein möglichst vollständiger Crawl der Domain in akzeptabler Zeit 2. Schnelles Bemerken von Änderungen an bestehenden Inhalten und damit möglichst zeitnahes Aktualisieren der jeweiligen Inhalte im Index 3. Schnelles Auffinden von neuen Inhalten / URLs auf einer Domain, so dass selbige schnellstmöglich auch via Google auffindbar sind 4. Schonender bzw. effizienter Umgang mit Ressourcen im Crawl-Prozess (Serverinfrastruktur sowie Traffic)
  7. 7. Was beeinflusst das „Crawl-Budget“?
  8. 8. Welche Faktoren beeinflussen das Crawl- Budget einer Domain? 1. Alter der Domain: Desto älter, desto mehr Vertrauen 2. Linkprofil (Authority / Trust): Desto stärker das Linkprofil insgesamt, desto mehr Budget 3. Größe & Aktualität: Content Wachstum & Freshness 4. Erreichbarkeit: Die “richtigen” Links & HTTP Response Codes 5. Priorisierung: Die wichtigen Inhalte zuerst! 6. Effizienz: Duplicate Content, Thin Pages & Indexierungsregeln 7. Geschwindigkeit: As fast as possible!
  9. 9. Keine einfach „ablesbare“ Zahl!
  10. 10. PageRank als Crawling Faktor „Interner“ PR als Priorisierung für den Crawling-Prozess • Keine wirklich ein- sehbare Zahl • Zugeteilt pro Hostname sowie pro Subdomain • Interner PageRank != Toolbar PageRank
  11. 11. Und was ist die „Crawl-Rate“?
  12. 12. „Die Crawl-Rate definiert die Anzahl an Crawl-Anfragen (Zugriffen) durch den Crawler einer Suchmaschine (Google) in einem bestimmten Zeitraum (bspw. 24h) auf eine Domain (oder ein Verzeichnis).“
  13. 13. Ausgangspunkt: Google Search Console Was will Google? Jeden Tag möglichst viele, relevante URLs extrem schnell herunterladen! http://g.co/searchconsole
  14. 14. Ausgangspunkt: Google Search Console Sowas sollte nicht passieren! Jemand eine Idee?
  15. 15. Sie haben ihr CMS “ausgetauscht”! (ME DURING THE CONFERENCE CALL…)
  16. 16. Nutze die Anzahl der Links und die Linktiefe um den Crawler zu kontrollieren #1 Die richtige Architektur
  17. 17. Das Wichtigste? Die Startseite! Idealerweise sind alle Inhalte max. 3-5 Klicks entfernt! 1. 2. 3.
  18. 18. Priorisiere URLs anhand von Suchvolumen Homepage > Kategorien > … > Detail-Seiten Wer “speziell” sucht, erwartet keine generischen LPs! Mehr zum Thema Keywordrecherche: http://bg.vu/sesldn14
  19. 19. Lesbarkeit der Links sicherstellen Einfach zu testen: JavaScript und CSS deaktivieren http://chrispederick.com/work/web-developer/ & http://www.feedthebot.com/spiderview.html webcache.googleusercontent.com/search?q=cache:www.domain.com&strip=1
  20. 20. Für eigene Domains: Fetch & Render Google’s Search Console: Lesbarkeit prüfen und Darstellungen vergleichen (CSS & JS freigeben)
  21. 21. Es geht Google nur um eines: Effizienz! Ein Maximum an einzigartigen Seiten, (fast) keine Duplikate, alle Inhalte crawlbar, etc. http://pa.ag/deep-crawl
  22. 22. Tiefe des Craw-Prozesses überwachen! Kalender können bspw. „unendliche“ URLs erzeugen! Gut optimiert (Gleichmäßige Verteilung über Ebene 1-5, die wichtigsten Seite „nahe“ der Startseite) Schwierig Alle Inhalte auf einer Ebene bzw. extrem viele Inhalte auf Ebene 6 – 14…
  23. 23. Sicherstellen, dass jede Unterseite den bestmöglichen, internen Link bekommt. #2 Die “richtigen” Links
  24. 24. Implementierung von Breadcrumbs Der “richtige” Link und der wertvollste Anchortext! https://schema.org/breadcrumb
  25. 25. URL ersetzt durch Breadcrumb-Pfad: Source: http://pa.ag/1GjAMSb
  26. 26. Kontextuelle Relevanz berücksichtigen Kunden, die dieses Produkt gekauft haben, kauften…
  27. 27. Sowie semantisch passende Verlinkungen: Einen Schuh mit “passendem” Outfit zu verbinden ist jedoch nicht immer ganz einfach! Richtig, liebe Damen? Leicht Schwierig
  28. 28. Schema.org Link-Relations Strukturiertes Mark-Up um Links näher zu beschreiben:
  29. 29. Gib deinem Besucher Nutzen & Konsistenz Sofern ich interessiert bin, kann ich direkt zum passenden Artikel weiter klicken… Kontext is King!
  30. 30. http://www.stateofdigital.com/traffic-quality-indicator/
  31. 31. “Quick Wins” brauchen ebenfalls Links Schwellen-Keywords von Seite 2 auf 1 schieben (z.B. mit einem CMS-Modul, das das SEO-Team steuert)
  32. 32. Jemand eine Vermutung? Welches Keyword könnte das gewesen sein?
  33. 33. Richtig: Weihnachtsgeschenke! Richtiger Umgang mit wiederkehrenden Saisonalitäten!
  34. 34. Ein weiterer Versuch: Was könnte das gewesen sein?
  35. 35. Suchinteresse Zeitverlauf: iPhone! Produkt-Releases sind ähnlich wie Saisonalitäten: Massiver SV-Anstieg (mit Peak Ace bei Veröffentlichung)
  36. 36. Prüfe sorgfältig, welche Seiten du in den Index lässt und noch viel wichtiger, wie du es machst! #3 Crawler Control
  37. 37. Meta Tags im Browser anzeigen: SeeRobots Plug-in für Chrome & Firefox http://www.seerobots.com/
  38. 38. Meta Robots Tag vs. robots.txt <meta name="robots" content="noindex, follow" /> • Seiten werden gecrawlt • Seiten werden nicht indexiert • Seiten werden nicht in den Suchergebnissen angezeigt User-Agent:* Disallow: /seite.html • Seiten werden nicht gecrawlt • URLs werden “teilweise” indexiert • URLs werden “teilweise” in den Suchergebnissen angezeigt Was sind die wichtigsten Unterschiede?
  39. 39. URL-Pattern via robots.txt ausgeschlossen Google zeigt URLs weiterhin in den Suchergebnissen an
  40. 40. Beides gleichzeitig hilft auch nicht! Google kann Robots Meta Tags nicht lesen, wenn das URL-Pattern via robots.txt gesperrt ist!
  41. 41. Wie macht man es richtig? Für die Praxis gilt: • Das Robots Meta Tag ist im täglichen Gebrauch für HTMLs eigentlich immer die bessere Wahl, da es deutlich granularer eingesetzt werden kann. • Kein Verlust von externer Linkkraft, denn diese wird nicht weitergegeben • Kein Bruch in der internen Verlinkung; häufig sonst sehr schwer steuerbar • Reduzieren des Indexes auf ausschließlich relevante URLs https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  42. 42. Bietet diese Seite wirklich signifikanten Mehrwert, wenn ich sie für die Indexierung freigebe? Stell dir immer die Frage:
  43. 43. Was nicht in den Index gehört #1 Leere (oder nahezu leere) Kategorie oder Tag-Seiten!
  44. 44. Was nicht in den Index gehört #2 … verschiedene Versionen einer URL, verursacht durch gefilterte oder sortierte Inhalte!
  45. 45. Was nicht in den Index gehört #3 … oder dynamisch generierte Seiten wie Suchresultate! SERP in SERP = schlechte Nutzererfahrung!
  46. 46. Was nicht in den Index gehört #4 .. und vieles mehr: • verschiedene “no result-Seiten” (keine Kommentare für Produkt A, keine Bewertungen für Produkt B, usw.) • falsch implementierte Paginierungen (Seite 2+ muss nicht indexiert werden, da diese idR. kein Rankingziel hat) • Achtung bei Facettennavigationen (wegen der Vielzahl an Kombinationen) • mehrere Versionen einer Homepage (z.B. index.php vs. “/” oder non-www vs. www oder https vs. non-https) • gleicher Inhalt auf verschiedenen Domains
  47. 47. Wie viel Organic-Traffic haben die „noindex“-Kandidaten, wie Filter & Sortierungen, denn wirklich? Unsicher? Analytics Daten!
  48. 48. Noch besser als „noindex“ ist demnach das Löschen! noindex geht natürlich auf euer Crawl-Budget!
  49. 49. Auch hier: Weniger ist mehr; aber wenn, dann richtig! #4 Weiterleitungen
  50. 50. Es gibt viele verschiedene Redirects: http://en.wikipedia.org/wiki/List_of_HTTP_status_codes#3xx_Redirection Und das sind nur die serverseitigen…
  51. 51. Und es gibt ja noch „andere“ Redirects: • Weiterleitungen im HTML via Meta Tag: <meta refresh …> • Simple, inline Weiterleitungen per JavaScript, z.B. mit document.location.href=URL • Komplexere, teils unsichtbare Weiterleitungen über externes JavaScript, z.B. via jQuery Event Listener • Etc. Wichtig: Nur weil Google diese Weiterleitungen (zum Teil) im „Fetch & Render“ erkennt, heißt das nicht, dass diese Weiterleitungen SEO kompatibel sind!
  52. 52. Sicherstellen, immer 301‘s zu verwenden: https://youtu.be/6hSoXutuj0g
  53. 53. Mit einer Ausnahme: Language-switches Source: http://pa.ag/1JqUcEo • für sprach-/geo-basierte Redirects nutzt man HTTP 302 oder HTTP 303 • Google sagt, sie verstehen 301’s ebenso – aber sicher ist sicher!
  54. 54. Redirect-Pflege ist enorm wichtig! Google verfolgt nur bis zu drei Redirects in einer Kette
  55. 55. Jeder Weiterleitungspunkt zählt in euer Crawl-Budget: A -> 301 auf B (2x); A->B->C (3x); usw. Warum ist das so wichtig?
  56. 56. Massenüberprüfung Headers / Redirects: http://www.tomanthony.co.uk/tools/bulk-http-header-compare/
  57. 57. Desktop Crawler: Screaming Frog http://www.screamingfrog.co.uk/seo-spider/
  58. 58. SaaS Crawling: DeepCrawl http://pa.ag/deep-crawl
  59. 59. Der Redirect des armen Mannes! #5 Canonical Tags
  60. 60. Canonical Tags im Auge behalten! Allgemein gilt: Für Filter, zum Sortieren oder bei HTTP vs. HTTPs ist die Verwendung “OK”.
  61. 61. Google könnte Canonicals ignorieren… Verwendet Canonical Tags nicht als Entschuldigung für schlechte Website-Architektur! http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html Is rel="canonical" a hint or a directive? It's a hint that we honor strongly. We'll take your preference into account, in conjunction with other signals, when calculating the most relevant page […]
  62. 62. Aber oft passieren komische Dinge… Es darf nur eine Rel-Canonical-Anweisung pro URL geben, nur EINE! Absolute URLs mit Protokoll & Subdomain verwenden Konsistenz wahren: Ein Protokoll (http vs. https), entweder www oder non-www & konsistente Verwendung von Trailing Slashes Rel-Canonical-Ziele müssen tatsächlich funktionieren (keine 4XX-Ziele) Keine Canonical Tag-Verkettung, Google wird diese ignorieren! etc.
  63. 63. Wird mein Canonical beachtet?
  64. 64. Für “non-HTML” & bei sehr großen Domains #6 X-Robots Header
  65. 65. X-Robots-Tag: Indexierungssteuerung • Gleiche (kombinierte) Anweisungen, wie für das Robots Meta Tag möglich • Entweder kommasepariert oder auch mehrfaches Verwenden des Headers • Individuelle Crawler Regeln funktionieren auch hier analog zum Meta Tag. http://https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de
  66. 66. X-Robots Rel-Canonical Implementierung: • Google indexiert auch PDFs, DOCs, usw. – auch diese Dateien sind bzw. können Duplicate Content verursachen. • Rankings – bspw. für PDF Dateien – sind eher schwierig (für den User), da eine Navigation fehlt. Es empfiehlt sich daher zu einem PDF immer ein HTML Pendant vorzuhalten und entsprechend dort hin per Canonical Header zu verweisen.
  67. 67. It’s all about site speed, especially on mobile! #7 Site Speed
  68. 68. Ich bin ein SEHR ungeduldiger Mensch!
  69. 69. Site Speed ist ein Google-Rankingfaktor… …bereits seit 2010! Full Story: http://pa.ag/1t4xVs6
  70. 70. Die Return-to-SERP-Rate… … natürlich ebenso ein (indirekter) Rankingfaktor!
  71. 71. Google forciert das Thema immer wieder:
  72. 72. Source: http://pa.ag/1cWFCtY
  73. 73. Viele Seitenbetreiber haben zugehört: Top-4 Ergebnisse deutlich schneller als der Rest! Source: Searchmetrics Ranking Factors 2014 (US) - http://pa.ag/10cZuU2
  74. 74. Die Erwartungshaltung ist eindeutig: Diesen Ansprüchen müsst ihr gerecht werden! “A report from Nielsen has revealed that 47% of people expect a website to load within 2 seconds, and 40% will leave a website if it does not load fully within 3 seconds.” Quelle: http://pa.ag/1Rk8dIf
  75. 75. 100ms machen einen (großen) Unterschied! Amazon = 1%+ mehr Umsatz pro 100ms 1 Sek. Verzögerung = -11% Pageviews & -7% Conversions Source: http://pa.ag/1w8IYwq
  76. 76. Google PageSpeed Insights als Startpunkt Freies, web-basiertes Tool, um eine Seite anhand diverser Regeln und best-practices zu messen https://developers.google.com/speed/pagespeed/insights/
  77. 77. Was wirklich zählt? Zeit statt Note! Vollständiger Artikel: http://pa.ag/1KjZuQQ
  78. 78. webpagetest.org – mit allen Funktionen: Alles auf einen Blick: TTFB, Keep-Alive, Compression & Caching, Image Usage, CDN & Wasserfall-Diagramme
  79. 79. webpagetest.org – mit allen Funktionen: Alles auf einen Blick: TTFB, Keep-Alive, Compression & Caching, Image Usage, CDN & Wasserfall-Diagramme
  80. 80. Auf diese Punkte als erstes achten (vor allem bei neuen Webseiten) Welche Ressourcen hängen voneinander ab? Wie wirkt sich JavaScript auf Ladezeiten aus? Lassen sich lange Netzwerk- & DNS-Anfragen erkennen? Blockieren sich Netzwerk-Anfragen von der gleichen Domain? Finden sich “visuelle Abhängigkeiten” zwischen (Sub-)Anfragen? Treten lange und exzessive JavaScript-Ausführungen auf?
  81. 81. Die eigene Seite (& den Wettbewerb) fortlaufend monitoren! Ende April veröffentlichte sitespeed.io ein sehr cooles Dashboard für ein sehr granulares Monitoring http://www.peterhedenskog.com/blog/2015/04/open-source-performance-dashboard/
  82. 82. http://dashboard.sitespeed.io/
  83. 83. Leider keine Zeit, tiefer einzusteigen, daher: Zu den Folien: http://pa.ag/unggd15
  84. 84. 10x Ansätze um typische Probleme aufzuspüren: Crawl-Issues identifizieren?
  85. 85. Google crawled GET-Formulare, POST is your friend! Thin Content bzw. SERP in SERP Danger: Zielseiten zus. auf “noindex”. #1 Die interne Suche
  86. 86. Anzahl der Elemente pro Seite erhöhen = weniger URLs im Pager!? #2 Paginierungen
  87. 87. Haltet eure Sitemaps aktuell: Ausschließlich indexierbare URLs, die mit HTTP Status 200 antworten! #3 XML Sitemaps
  88. 88. Jede Weiterleitung zählt ins Crawl-Budget; intern immer nur direkt auf die Zielseite verlinken! #4 HTTP 30X (Redirect)
  89. 89. 404’er, werden mehrfach abgerufen bevor Google diese löscht (wenn überhaupt). 410 = gone! (Diese URLs natürlich nicht mehr aktiv verlinken!) #5 HTTP 404 (not found)
  90. 90. Google muss die jeweilige Seite erst crawlen! Weniger Restriktionen = weniger Crawl-Overhead! #6 Exzessive Canonical Tags
  91. 91. Filter und / oder Sortierungen generieren Unmengen an mgl. URL-Kombinationen. PRG ftw! #7 Facetted Navigation
  92. 92. Das POST-Redirect-GET Pattern (PRG) Suchmaschinenfreundliche Reduzierung von Verlinkung! Mehr lesen: http://pa.ag/1jzXn6A
  93. 93. Google crawled z.B. auch AJAX Calls oder JSON-Objekte (falls verlinkt)! #8 Achtung bei Non-HTML‘s
  94. 94. …url?a=b&c=d ist nicht das Gleiche wie …url?c=d&a=b! Einheitliche Reihenfolgen; oder # als Alternative? #9 GET-Param. Reihenfolge
  95. 95. #10 Echte Daten gibt’s (nur) in Logfiles! z.B. umsonst mit ELK (Elasticsearch, Logstash, Kibana) http://logz.io/blog/log-analysis-technical-seo/
  96. 96. Bastian Grimm bg@peakace.de twitter.com/peakaceag facebook.com/peakaceag peakace.de Vielen Dank!

×