+ All Categories
Home > Data & Analytics > Crawl budget (Vladimír Saur)

Crawl budget (Vladimír Saur)

Date post: 21-Jan-2018
Category:
Upload: medio-interactive-sro
View: 5,625 times
Download: 0 times
Share this document with a friend
20
CRAWL BUDGET VLADIMÍR SAUR [email protected] @dedouch
Transcript
Page 1: Crawl budget (Vladimír Saur)

CRAWLBUDGETVLADIMÍR SAUR

[email protected]

@dedouch

Page 2: Crawl budget (Vladimír Saur)

JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?

Page 3: Crawl budget (Vladimír Saur)

JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?

Page 4: Crawl budget (Vladimír Saur)

JE TO MOC?

Page 5: Crawl budget (Vladimír Saur)

CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?

Page 6: Crawl budget (Vladimír Saur)

CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?

• Počet stránek webu

• Rank/popularita

• Častost aktualizace

• Rychlost webu/odezvy serveru

Page 7: Crawl budget (Vladimír Saur)

SEZNAM VS. GOOGLE

Page 8: Crawl budget (Vladimír Saur)

SEZNAMBOT

robots.txt 552xhomepage 10xsitemap 16x

URL GETVše 20 700 27 600HTML 11 400 15 200Obrázky 9 300 11 700

<lastmod>

Stahuje se i se starším datem

Page 9: Crawl budget (Vladimír Saur)

GOOGLEBOT

URL GET POST OPTIONSVše 85 700 304 700 14 400 130HTML 52 500 103 100 14 400 130Obrázky 32 700 79 900Fonty 5 32 000CSS 1 2 000Javascript 15 86 700

<lastmod>

Stahuje jen poslední datum (aktuální den), starší ne

robots.txt 68xhomepage 196xsitemap 11x

Page 10: Crawl budget (Vladimír Saur)

JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?

Velký počet URL s nízkou hodnotou

• Duplicity• Podobnosti• Soft errors

Page 11: Crawl budget (Vladimír Saur)

JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?

Další linkované soubory

• Javascripty• CSS• Fonty

Page 12: Crawl budget (Vladimír Saur)

JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?

Technické nedostatky

• Redirect chains• URL bez obsahu

Page 13: Crawl budget (Vladimír Saur)

JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?

SPA(Single-PageApplications)

Indexace pomocí hashbang:1. www.example.com/#!klic1=hod

nota1&klic2=hodnota22. <meta name="fragment"

content="!">3. www.example.com/?

_escaped_fragment_=klic1=hodnota1%26klic2=hodnota2

Page 14: Crawl budget (Vladimír Saur)

ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE?

• Meta robots

• X-Robots-Tag• Javascriptové odkazy

• Kanonizace

Page 15: Crawl budget (Vladimír Saur)

ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT?

• Sitemaps

• Google Search Console – parametry

• Robots.txt

• If-Modified-Since v HTTP hlavičce

Page 16: Crawl budget (Vladimír Saur)

SITEMAPS<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url><loc>http://www.example.com/</loc><lastmod>2005-01-01</lastmod><changefreq>monthly</changefreq><priority>0.8</priority>

</url></urlset>

Page 17: Crawl budget (Vladimír Saur)

GOOGLE SEARCH CONSOLE– PARAMETRY

Page 18: Crawl budget (Vladimír Saur)

ROBOTS.TXTUser-agent: * Disallow: /

User-agent: SeznamBotDisallow:

User-agent: googlebotDisallow: /cat*.phpDisallow: /cat*.php3$

Page 19: Crawl budget (Vladimír Saur)

ROBOTS.TXT 2.0

User-agent: *Robot-version: 2.0Disallow: /test*Disallow: /ko??Disallow: /file\?Disallow: /[0-9][^0-9]*

Page 20: Crawl budget (Vladimír Saur)

?VLADIMÍR SAUR

[email protected]

@dedouch


Recommended