Co to je crawl budget a proč byste se měli o něj zajímat? U jakých webů jej má smysl řešit, u jakých naopak ne? Jakým způsobem můžete ovlivnit, jak robot vyhledávače stahuje vaše stránky – a má vůbec smysl robota nějak limitovat? Přijďte si popovídat o tom, jak neházet robotům klacky pod nohy.
4. CO OVLIVŇUJE PŘIDĚLENÝ
CRAWL BUDGET?
• Počet stránek webu
• Rank/popularita
• Častost aktualizace
• Rychlost webu/odezvy serveru
5. JAK SI CRAWL BUDGET
CO NEJLÉPE VYPLÁCAT?
• Velký počet URL s nízkou hodnotou
• Duplicity
• Podobnosti
• Soft errors
• Další linkované soubory
• Javascripty
• CSS
• Technické chyby
• Redirect chains
• URL, co nejsou URL
• Like atp.
6. JEŠTĚ STÁLE MÁME MOC
URL…
0
1000
2000
3000
4000
5000
6000
7000
0 1000 2000 3000 4000 5000 6000
traffic
počet URL
7. ŘÍZENÍ CRAWLINGU – CO
(TÉMĚŘ) NEFUNGUJE?
• Meta robots
• Javascriptové odkazy
• Kanonizace
8. ŘÍZENÍ CRAWLINGU – CO
MŮŽE FUNGOVAT?
• Meta robots v HTTP hlavičce?
• Sitemaps?
• Google Search Console – parametry
• Robots.txt
OMEZENÍ CRAWLINGU OMEZENÍ INDEXACE OMEZENÍ TRAFFICU
• Zrychlete web
• Sežeňte si dost unikátního obsahu
9. X-ROBOTS-TAG HTTP
HEADER
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)