Date post: | 21-Jan-2018 |
Category: |
Data & Analytics |
Upload: | medio-interactive-sro |
View: | 5,625 times |
Download: | 0 times |
JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
JE TO MOC?
CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
• Počet stránek webu
• Rank/popularita
• Častost aktualizace
• Rychlost webu/odezvy serveru
SEZNAM VS. GOOGLE
SEZNAMBOT
robots.txt 552xhomepage 10xsitemap 16x
URL GETVše 20 700 27 600HTML 11 400 15 200Obrázky 9 300 11 700
<lastmod>
Stahuje se i se starším datem
GOOGLEBOT
URL GET POST OPTIONSVše 85 700 304 700 14 400 130HTML 52 500 103 100 14 400 130Obrázky 32 700 79 900Fonty 5 32 000CSS 1 2 000Javascript 15 86 700
<lastmod>
Stahuje jen poslední datum (aktuální den), starší ne
robots.txt 68xhomepage 196xsitemap 11x
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Velký počet URL s nízkou hodnotou
• Duplicity• Podobnosti• Soft errors
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Další linkované soubory
• Javascripty• CSS• Fonty
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Technické nedostatky
• Redirect chains• URL bez obsahu
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
SPA(Single-PageApplications)
Indexace pomocí hashbang:1. www.example.com/#!klic1=hod
nota1&klic2=hodnota22. <meta name="fragment"
content="!">3. www.example.com/?
_escaped_fragment_=klic1=hodnota1%26klic2=hodnota2
ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE?
• Meta robots
• X-Robots-Tag• Javascriptové odkazy
• Kanonizace
ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT?
• Sitemaps
• Google Search Console – parametry
• Robots.txt
• If-Modified-Since v HTTP hlavičce
SITEMAPS<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.example.com/</loc><lastmod>2005-01-01</lastmod><changefreq>monthly</changefreq><priority>0.8</priority>
</url></urlset>
GOOGLE SEARCH CONSOLE– PARAMETRY
ROBOTS.TXTUser-agent: * Disallow: /
User-agent: SeznamBotDisallow:
User-agent: googlebotDisallow: /cat*.phpDisallow: /cat*.php3$
ROBOTS.TXT 2.0
User-agent: *Robot-version: 2.0Disallow: /test*Disallow: /ko??Disallow: /file\?Disallow: /[0-9][^0-9]*