lcerna/vyhledavani.doc · Web viewSlovo "meta" pochází tuším z řečtiny a znamená "něco, co...

http://www.jakpsatweb.cz/vyhledavace.html

Vyhledávače

jak přibližně fungujíCo jsou vyhledávače - Jak pracují vyhledávače - Robot prochází internetem - Jak přilákat roboty - Indexování - Klíčová slova - Vyhledávání - Čeština - Příklady vyhledávačů - Další informace

Co jsou vyhledávače

Třeba Google, Jyxo, Morfeo, fulltext Seznamu nebo třeba Yahoo.com. Servery, které mají velikou databázi stránek s informacemi o tom, která stránka internetu obsahuje jaké slovo. Protože takové vyhledávače umějí hledat v celém textu stránek, říká se jim fulltextové. Takových serverů existují řádově stovky. Nepleťte si prosím fulltextové vyhledávače s katalogy (Yahoo, katalog Seznamu), ačkoli poslední dobou (2005) se to k sobě dost blíží.

Programům, které procházejí web a schraňují pro vyhledávače informace, se říká roboti, boti nebo crawleři.

Na české stránky přichází nejvíce uživatelů přes fulltext Seznamu. Světově nejdůležitější vyhledávač je Google. Více informací o Google. Údaje uvedené níže platí ale pro všechny fulltextové vyhledávače.

Jak pracují vyhledávače

Ve třech krocích:1. Roboti (crawleři) sbírají data 2. Pak se to zpracuje do databáze (indexování) 3. Nakonec se to zpřístupní návštěvníkům, aby mohli klást dotaz (webmodul).

Robot prochází internetem

Většinou někde začne, třeba v nějakém katalogu. Najde odkaz a sleduje ho. Nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje, aby si to zase postahoval.

Z toho vyplývá, že robot může odhalit pouze stránku, na kterou vede nějaký odkaz. Musí přitom jít o klasický odkaz (na to obzvláště upozorňuji milovníky různých JavaScriptových parádiček). Pokud na vaše stránky nebudou roboti chodit, žádný čtenář ty stránky nemůže najít fulltextovým vyhledávačem.

V praxi ale roboti najdou jenom část stránek, které existují, protože to prostě všechno nestíhají.

Aby se nezdržovali blouděním, mají ve zvyku sledovat odkazy v témž webu jen do určité úrovně (1 až 2) nebo do určitého počtu.

Roboti si pamatují, kde už byli, aby tam nemuseli znovu. Čas od času se robot na stránky vrací, aby se podíval, jak se změnily.

Roboti skoro vůbec nestahují pomocné soubory jako obrázky nebo stylopisy. Někteří roboti se prý nedokáží nebo nechtějí prokousat rámovou strukturou (vizte problémy rámů).

http://www.jakpsatweb.cz/ramy-problemy.html

http://www.jakpsatweb.cz/vyhledavace.html#vyhledavani%23vyhledavani

http://www.jakpsatweb.cz/vyhledavace.html#indexovani%23indexovani

http://www.jakpsatweb.cz/vyhledavace.html#prochazi%23prochazi

http://www.jakpsatweb.cz/google.html

http://www.jakpsatweb.cz/katalogy.html

http://morfeo.centrum.cz/

http://jyxo.cz/

http://www.google.com/

http://www.jakpsatweb.cz/vyhledavace.html#mytologie%23mytologie

http://www.jakpsatweb.cz/vyhledavace.html#mytologie%23mytologie

http://www.jakpsatweb.cz/vyhledavace.html#priklady%23priklady

http://www.jakpsatweb.cz/vyhledavace.html#cestina%23cestina

http://www.jakpsatweb.cz/vyhledavace.html#vyhledavani%23vyhledavani

http://www.jakpsatweb.cz/vyhledavace.html#klicova%23klicova

http://www.jakpsatweb.cz/vyhledavace.html#indexovani%23indexovani

http://www.jakpsatweb.cz/vyhledavace.html#prilakat%23prilakat

http://www.jakpsatweb.cz/vyhledavace.html#prilakat%23prilakat

http://www.jakpsatweb.cz/vyhledavace.html#prochazi%23prochazi

http://www.jakpsatweb.cz/vyhledavace.html#jak%23jak

http://www.jakpsatweb.cz/vyhledavace.html#co%23co


Jak přilákat indexovací roboty

Někteří přijdou sami poté, co se vaše stránka objeví na nějaké stránce. Jiné roboty musíte popohnat. Většinou je potřeba na stránkách vyhledávače někde najít nenápadný odkaz přidej odkaz, add a link, submit site, add site a podobně. Zadá se URL adresa (doporučuji kontrolovat), to je vše. Roboti časem přijdou. Znám takhle stránku na přidání do Google, do Jyxo a do Seznamu.

Google a další moderní roboti prý přijdou na stránku teprve tehdy, když najdou určité množství odkazů, které na stránku míří. Proto je třeba mít zajímavý obsah, aby jiní autoři na moje stránky odkazovali.

Bacha na automaty

Osobně jsem velmi skeptický k programům, které slibují, že přidají odkaz do spousty vyhledávačů.

Jednak jde o vyhledávače zahraniční -- ty nejsou tak důležité jako české. Druhak se říká, že ty programy stejně jenom schraňují informace o zadavateli, aby to mohli prodat.

Opravdu důležitých dobrých vyhledávačů je jen málo, není třeba být ve všech špatných. Navíc například Altavista těmto programům blokuje přístup a Google je prý v algoritmech penalizuje.

Jak zakázat roboty

Pomocí standardu robots.txt nebo pomocí meta tagů robots. Napsal jsem o tom samostatnou stránku o robots.txt (původně byla součástí tohoto textu). Tamtéž píšu o meta tagu robots, o atributu rel=nofollow a o jyxostart.

Indexování

Čili zpracování dat do databáze. Každý vyhledávač si žvýká nasbírané informace po svém. Nejčastěji si vypisuje všechna slova, počítá jejich váhu a dává je do relace s adresou stránky.

Váha (důležitost)

Při hledání slova vyplivne vyhledávač první adresy stánek, na kterých má hledané slovo velkou váhu. Jak se váha počítá? Aneb jak se pozná, zda je slovo pro stránku charakteristické? Především tak, že se dané slovo vyskytuje v titulku stránky, v klíčových slovech, v popisu a v nadpisech. Je nutno poznamenat, že každý vyhledávač to počítá jinak

Co vyhledávače sledují Jak je to v HTML Důležitost (váha)

titulek <title>text titulku</title> obrovská

klíčová slova <meta name=keywordscontent="slovo, slovo">

značná,někdy žádná (Google)

popis (description) <meta name=descriptioncontent="Stručný popis"> různá

http://www.jakpsatweb.cz/meta-tagy.html


http://www.jakpsatweb.cz/meta-tagy.html#klic

http://www.jakpsatweb.cz/robots-txt.html

http://fulltext.seznam.cz/

http://jyxo.cz/d/submit

http://jyxo.cz/d/submit

http://www.google.com/addurl/?continue=/addurl

nadpis 1. úrovně <H1>Nadpis</h1> značná

ostatní nadpisy <Hn>Nadpis</hn> sporná

začátek stránky <body>Několik prvních slov ... větší než malá

adresa URL jméno souboru včetně cesty různá

text odkazů mířících na tu stránku z jiného serveru <a href="adresa">text odkazu</a> u některých vyhledávačů obrovská

(Google, Jyxo)

alty u obrázků <img alt="zástupný text" ...> malá

text stránky prostě text malá

katalogový popisek co zadáte do případného spřízněného katalogu různá (pouze na Seznamu)

V tabulce jsem nastínil pouze nejčastější kritéria. Ještě jednou musím zdůraznit, že se různé vyhledávače v počítání relevance opravdu velmi liší. Například Google prý zcela ignoruje klíčová slova (meta keywords). Nebo existují specializovaní roboti, kteří hledají třeba jenom obrázky nebo počet odkazů.

Klíčová slova

Velký význam býval připisován klíčovým slovům (keywords) a popisu (description). Zapisují se jako meta tagy. V zásadě se dá říci, že keywords by měl být seznam slov charakteristických pro danou stránku. Například zápis klíčových slov pro tuto stránku:<meta name="keywords" content="vyhledávač,indexování,meta,keywords,description,robot,robots.txt, user-agent, disallow, altavista, google">

Význam klíčových slov v poslední době (myšleno 2004) zcela upadl, protože spousta lidí do nich píše nesmysly a marketingové žvásty. Autoři vyhledávačů to vědí, a tak význam keywords v kritériích snižují. Například Google nebo Seznam již klíčová slova ignorují zcela. Dnes mají keywords větší význam pouze pro interní vyhledávače (například Atomz).

Description = popisek

Naopak určitý význam si uchovává meta tag description. Všechny důležité vyhledávače (pokud vím) jej berou v úvahu. <meta name="description" content="Jak zakázat robotům přístup na web nebo jak zlepšit výsledky vyhledávání">

Google zobrazuje popisek pod titulkem vyhledávání v případě, že popisek obsahuje hledané slovo (domnívám se, že s description pracuje stejně jako s nadpisem nejvyšší úrovně).

Vyhledávání

Podoba výsledků

http://www.jakpsatweb.cz/hledani.html

http://www.jakpsatweb.cz/meta-tagy.html#klic

Je zajímavé popřemýšlet, jak se moje nalezená stránka zobrazí. Jako klikací odkaz se vypisuje titulek stránky (obsah tagu <title></title>), pod ním tři různé věci:

1. Buďto obsah meta tagu description, 2. nebo prvních několik slov ze začátku stránky 3. nebo kusy textu kolem hledaného výrazu.

Nejčastěji to býval právě description (takže je dobré jej zadávat), poslední dobou vítězí kusy textu kolem hledaného výrazu (zejm. Google, Webfast a Jyxo). Hlavně je ale třeba mít správně zadaný titulek stránky.

Řazení výsledků

Různé vyhledávače řadí výsledky různě. Obecně se dá říci, že čím více se hledaná slova na stránce vyskytují a čím mají významnější pozici (titulky, nadpisy), tím je stránka řazena výše. Sleduje se i text odkazů mířících na stránku, zda obsahuje hledané slovo. Algoritmy ale nikdo přesně nezná a liší se nejen od vyhledávače k vyhledávači, ale např. na Google prý každý měsíc. Proto nemá cenu psát sem víc, než odkaz na archiv české konference SEO (search engine optimalization).

Page Rank

Další metodou je takzvaný PageRank (PR), který používá Google (GPR) a poslední dobou (míněno 2005) mnoho jiných vyhledávačů. PR vyjadřuje něco jako věrohodnost nebo důležitost stránky. Page Rank ovlivňuje řazení výsledků, nikdo ale přesně neví jak (asi podstatně). Jaké mají vaše stránky Page Rank, se můžete dozvědět, pokud si stáhnete a nainstalujete Google Toolbar, což je taková lištička do prohlížeče.

GPR se počítá podle toho, kolik stránek danou stránku odkazuje -- čím více, tím lepší PageRank. Navíc odkazy ze stránek s vyšším PR mají větší váhu. Google Page Rank se počítá postupným přepočítáváním (iterací). Existuje na to vzoreček. Více o Google.

Nejlepší český vyhledávač Jyxo má navíc i JyxoRank, který se počítá podle toho, z kolika různých domén druhé úrovně vedou na stránku odkazy. Podle JyxoRanku řadí výsledky svého hledání, ale též je dává k dispozici Atlasu a Seznamu pro řazení odkazů v sekcích (psáno v létě 2003).

Čeština

Dříve to byla magie, ale dnes (2005) už je docela pohoda, protože všechno funguje, jak má. S češtinou jsou spojeny dvě zásadní otázky, které spolu nesouvisejí:

1. Jak vyhledávat háčkovaná a čárkovaná slova? 2. Jak pozná vyhledávač, že je stránka česky? (Třeba Altavista nebo Google to umí poznat)

Háčky a čárky

Dříve bylo nutno zadávat dotaz dvakrát. Jednou bez diakritiky, podruhé s ní. Vyskytují-li se navíc ve slově znaky ž, š a ť, bylo třeba opakovat hledání v jiném kódování. Dnes (2005) už to není potřeba, všechny moderní vyhledávače rozumějí češtině. Umějí rozeznat všechny hlavní znakové sady iso-8859-2, windows-1250 i UTF-8.


http://seo.nawebu.cz/

http://www.jakpsatweb.cz/meta-tagy.html#description

http://www.jakpsatweb.cz/titulek.html

Některé málo rozšířené hloupější zahraniční vyhledávače kódování češtiny ignorují a zapisují slova tak, jak je vidí v ascii kódu. To znamená, že třeba písmenko š si zapíšou jednou jako $185, jindy jako $154. Většina moderních vyhledávačů si texty ale převádí do unicode.

Rozpoznání jazyka

Jak vyhledávače poznají, v jakém jazyce je text? provádějí heuristickou analýzu: čtou text a snaží se počítat slova charakteristická pro ten který jazyk

(pro češtinu např. "se", "ale" nebo "je"). To je základní a nejpoužívanější metoda. Výjimečně se orientují se podle generické domény (.cz), hledají meta deklaraci jazyka: <meta http-

equiv="Content-Language" content="cs"> nebo hledají atribut lang=cs v jakémoli tagu. Tyto metody jsou ale vysoce nespolehlivé, a tak se (pokud vím) nepoužívají.

Protože počítání slov není vždy spolehlivé, není divu, že se vyhledávače občas v rozpoznání jazyka pletou. Google má (myslím) navíc nějaké rozbité slovníky, protože mezi českými výsledky často nacházím turecké a maďarské stránky.

Příklady vyhledávačů

České:

www.jyxo.cz je nejrychleji vyvíjeným českým fulltextem, má největší index. Poskytuje výsledky vyhledávání mnoha jiným českým serverům.

www.morfeo.cz (dříve webfast) používá jej Centrum, má velmi obsáhlý index. Centrum primárně vyhledává v katalogu odkazů a fulltextovým Morfeem výsledky pouze doplňuje.

výchozí vyhledávání na www.seznam.cz je od jara 2005 vlastní fulltextová technologe (obecně nepojmenovaná). Seznam dříve používal Jyxo nebo Google; nyní (2005) už ale Seznam Jyxo nevyužívá a Google má pouze na vyhledávání ve světě.

www.atlas.cz míval vlastní fulltext, nyní používá Jyxo, primárně vyhledává v katalogu firem a v katalogu odkazů

www.megatext.cz nefunguje, používal jej např. Quick (ten používá Jyxo) www.empyreum.cz bývalo v r. 2002 používáno Seznamem, myslím, že už se nevyvíjí. Jeden z autorů

Morfea později naprogramoval Jyxo.

Aktualizováno v březnu 2005.

Anglické:

www.google.com , search.msn.com je fulltext vyvíjený Microsoftem www.yahoo.com spustilo svůj vlastní fulltextový vyhledávač www.alltheweb.com už samostatně neexistuje, koupen firmou Yahoo.com www.altavista.com taktéž odkoupen Yahoo, www.lycos.com, www.hotbot.com, a stovky dalších.

Další informace

Něco z toho, co jsem psal na této stránce, je do určité míry nejisté. Aby zabránili podvodům, autoři vyhledávačů důležité informace tají (sám mám prsty ve fulltextu Seznamu, a tak taky neřeknu nic víc, než chci).

Zdroje na další informace naleznete v mém katalogu odkazů na SEO. Nejlepší zdroj je asi stránka www.vyhledavace.info.

http://www.vyhledavace.info/

http://www.jakpsatweb.cz/katalog/seo.html


http://www.seznam.cz/

http://www.morfeo.cz/

http://www.jyxo.cz/


Katalogy

jak se nejsnáze zviditelnitCo jsou katalogy - Co katalogy umožňují - Jak přidat odkaz - Zadávání do více katalogů najednou - Vyhledávání - Odstrašující příklad - Čeština - Přidávání podstránek - Příklady katalogů

Co jsou katalogy

Třeba Seznam, Atlas, Centrum nebo Yahoo. Mají velkou databázi odkazů do celého internetu uspořádanou do stromu. Pro nekomerční stránky představuje výskyt v katalozích primární přísun čtenářů. Pro komerční vlastně taky.

Například moje stránky o stopování dosahovaly před zařazením do Seznamu asi dvou přístupů denně. Po zařazení (a po ustálení počátečního zájmu) je na stránku průměrně 25 přístupů denně.

Katalogových serverů existuje mnoho. Nepleťte si katalogy s fulltextovými vyhledávači (Jyxo, Google, nyní též [aktualizováno 2005] Yahoo nebo Seznam).

Co katalogy umožňují

Procházení stromovou strukturou sekcí podle oborů Prohlížení odkazů. Vyhledání odkazů podle určitého slova. Přidávání odkazů do databáze.

Pro autory stránek je zajímavé hlavně přidávání vlastních odkazů. Také v té souvislosti zmíním, jak a podle čeho katalogy vyhledávají.

Jak přidat odkaz

Základ je na většině katalogů stejný. Než se dáte do zadávání, doporučuji předem si připravit titulek a popis odkazu.

1. Proklikejte se z hlavní stránky katalogu do tematické sekce, kde chcete mít odkaz umístěný. (Některé servery to nevyžadují a zařazují odkazy do sekcí sami, ale je to rarita.) Osobně správnou sekci obvykle nacházím hledáním.

2. Někde v té kategorii bude odkaz "Přidat odkaz", "Add URL" nebo něco v tom stylu. Většinou je vpravo nahoře.

3. Katalog se zeptá na pár věcí: o Adresu zadávané stránky. Doporučuji velkou pečlivost (nejlépe zkopírovat z řádku adresy

jiného okna, kde stránka běží). o Titulek odkazu. Stručně vystihněte podstatu stránky. Titulek je klíčově důležitá věc pro

případné vyhledávání. o Popis odkazu, který se bude zobrazovat pod titulkem. Je také důležitý pro vyhledávání. o Váš mail. o A pár dalších věcí, které záleží na rozmarech správců serveru.


http://dusan.pc-slany.cz/stop

http://www.jakpsatweb.cz/katalogy.html#priklady%23priklady

http://www.jakpsatweb.cz/katalogy.html#priklady%23priklady

http://www.jakpsatweb.cz/katalogy.html#podstranek%23podstranek

http://www.jakpsatweb.cz/katalogy.html#cestina%23cestina

http://www.jakpsatweb.cz/katalogy.html#odstrasujici%23odstrasujici

http://www.jakpsatweb.cz/katalogy.html#vahledavani%23vahledavani

http://www.jakpsatweb.cz/katalogy.html#najednou%23najednou

http://www.jakpsatweb.cz/katalogy.html#najednou%23najednou

http://www.jakpsatweb.cz/katalogy.html#pridat%23pridat

http://www.jakpsatweb.cz/katalogy.html#umoznuji%23umoznuji

http://www.jakpsatweb.cz/katalogy.html#co%23co


4. Po přidání odkazu musíte počkat týden dva, než si administrátoři vaši stránku prohlédnou a odkaz přidají do databáze. Potom vám většinou přijde mail, že je to jako přidané. Zřídka se stane, že přidávač změní text popisku nebo odmítne stránku přidat, ale stává se to.

5. Katalogy často žádají o vystavení jejich ikonky nebo jinou laskavost. Není nutné vycházet jim vstříc. Už tak je zadání odkazu pro katalog výhodné, protože se jim rozšiřuje databáze.

Pracovník katalogu se na vaše stránky v následujících dnech podívá. Pokud neodpovídají popisu, nejsou do katalogu zařazeny.

Špecifiká Seznamu 2005

Seznam.cz je nejdůležitější český katalog (ať už se to někomu líbí, nebo ne). V katalogu Seznam odlišuje tzv. komerční a nekomerční sekce. Do sekcí, ve kterých jsou firemní odkazy a stránky, lze přidat zase pouze firemní stránku. Stejně tak do nekomerčních sekcí by neměla přijít firemní stránka. Do některých důležitých sekcí se odkaz nedá přidat.

Na zadání firemní stránky potřebujete ičo. Teoreticky se vám může podařit dostat se s ním na tzv. negarantovaný zápis, což je bezplatný zápis někam dolů do sekce.

U každé firemní stránky má Seznam tzv. detail firmy, který se automaticky vygeneruje ze zadaných údajů o firmě. Je možné, že tento detail (stránku) navštíví více uživatelů, než samotné stránky firmy. Máte-li firemní stránky, počítejte s tím a při registraci zadejte co nejpřesnější údaje (včetně například otevírací doby). Titulek zápisu musí být jméno firmy. Pokud chcete do výpisu a do detailu logo nebo další vychytávky, je to placené. Ceny najdete v levém sloupečku skoro každého detailu firmy.

Pokud jako firma provozujete druhý komerční web a není to web vaší firmy, tak se do Seznamu můžete dostat pouze přes zápis asi za 15 tisíc ročně. Doporučuji vám, abyste se jej pokusili dostat do nekomerčního stromu.

V Seznamu si můžete koupit i různé produkty vztahující se ke hledání slov. Jenomže málo navštěvovaná slova jsou příliš drahá (od 3500 na měsíc) a dobře navštěvovaná slova jsou totálně vyprodaná na pár let dopředu.

Na jaře 2005 spustil Seznam jako výchozí vyhledávání fulltextovou technologii. Tím poněkud oslabil význam zápisu v katalogu. Komerční sekce se dají prohledávat ze záložky firem.

Zadávání do více katalogů najednou

Občas se na českém webu objeví služba, která slibuje zařazení odkazů od více katalogů. Žádná z nich nefunguje dobře a skoro všechny jsou placené. Nemá to cenu, je to ztráta času. Důležité je zařadit odkaz pouze na Seznam, Atlas a Centrum a do celosvětového katalogu www.dmoz.org. Zvažte slovenské katalogy Zoznam.sk, Superzoznam.sk aj.

Vyhledávání

Nebudu popisovat, jak se v katalozích hledá, to snad umíte. Jen chci upozornit na zásadní rozdíl mezi vyhledáváním v katalozích a ve fulltextu. Portály Atlas a Centrum obě možnosti spojují (jenom tam bývá přepínač, zda chci použít katalog nebo fulltext, někdy se to přepíná samo).

Zatímco ve fulltextu se prohledává celý obsah všech nalezených zaindexovaných stránek, v katalogu se provádí hledání zpravidla pouze podle titulku a popisu zadaného při vkládání odkazu.

Některé servery hledají ještě podle části adresy nebo podle ostatních polí, vždy ale platí pravidlo, že


http://www.dmoz.org/

katalogy prohledávají pouze podle údajů zadaných při vkládání odkazu. Jinak řečeno katalogy vůbec nezajímá vlastní obsah stránky.

v tomto ohledu proběhla v březnu 2005 důležitá změna -- pozor, Seznam.cz už vyhledává primárně ve fulltextu!

Omezené vyhledávání v katalozích Atlas a Centrum je hlavním důvodem pro pečlivou přípravu titulku a popisu.

Titulek mívá zpravidla větší váhu než popis. Vyhledávač řadí výsledky podle pozice výskytu hledaného slova. Nejlépe je, když se hledané slovo vyskytuje na začátku titulku, na začátku popisu a v adrese.

Odstrašující příklad

Dejme tomu, že mám ve Slaném firmu ŠEV, která se zabývá opravou a prodejem šicích strojů. Do katalogu zadám stránku s těmito parametry:

Titulek Prodej šicích strojů

Popis Internetové stránky firmy ŠEV. Prodej šicích strojů firem Šijeto, Klepeto a Krejčík&Rychlík. Navštivte naši prodejnu ve Slaném! Také opravujeme. Nejlepší výběr!

URL http://sev.hyperlink.cz/vitejte.html

Kategorie Pro účely tohoto příkladu není důležitá.

Proč píšu, že to je odstrašující příklad?

Problémy logického typu

Kdo zadává do popisku text "internetové stránky", tak je magor, protože co by to asi mohlo být jiného, když procházím internetový katalog? Balastní text, který jenom zdržuje. Správně by tam mělo být jenom "Firma ŠEV".

Věta také opravujeme je na špatném místě. Informace o opravách by možná měla být součástí jiné věty. Nejlepší výběr je zprofanované a nic neříkající heslo. Lepší by bylo třeba "výběr z desítek typů".

Administrátoři katalogu takové věty rádi mažou (což je dobře). Navštivte naši prodejnu se nehodí do popisku internetového odkazu. V první chvíli je důležité, aby

uživatel vůbec kliknul a navštívil alespoň stránky. O prodejně může být až na stránkách.

Problémy při vyhledávání:

Bude-li uživatel hledat slova "šicí stroje" nebude stránka nalezena, protože se v titulku ani v popisu tato slova nevyskytují. Jsou tam pouze ve tvaru "šicích strojů". Dá se sice předpokládat, že některé katalogy budou brát v úvahu i slova, která obsahují hledaný text (např. slovo šicích obsahuje slovo šicí), jiné vyhledávače umějí skloňovat, ale rozhodně tomu přiřadí menší prioritu. Řešením by bylo uvedení pojmu šicí stroje alespoň jednou v prvním pádě, nejlépe v titulku.

Totéž při hledání slov Slaný, oprava, opravy. V textu je pouze Slaném, opravujeme. Vyhledávání slova ŠEV by se asi setkalo s úspěchem, protože specifické jméno firmy nelze dobře

zaměnit. Zde není co zkazit. Slovo "prodej" v titulku je zbytečné, protože ho tam má dalších tisíc milión firem. Naopak by se hodilo

do popisu, aby čtenář nebyl zmýlen, ale nemusí být na začátku. Adresa URL je pro vyhledávání skoro nepoužitelná, protože obsahuje pouze řetězce sev, hyperlink,

vitejte. S tím se většinou nedá nic dělat, ale osobně bych třeba místo vitejte.html použil jméno sici-stroje.html.

Doporučené řešení

Titulek Šicí stroje - ŠEV Slaný

Popis Prodej a oprava šicích strojů firem Šijeto, Klepeto a Krejčík&Rychlík. Výběr z desítek typů. Desetiletá tradice. Nitě, jehly, náhradní díly, údržba.

URL http://sev.hyperlink.cz/sici-stroje.html

Do titulku nepatří žádná balastní slova. Důležitá slova patří na začátek titulku. Důležitá slova je dobré mít vícekrát a v různých mluvnických tvarech. Co nejvíce používat první pády (šicí stroje, Slaný), důležité pojmy navíc v pádech častých vazeb

(opravy šicích strojů). Co nejvíce možných vyhledávaných slov (nitě, jehly, jména značek). Heslovitě. Zmiňovat opravdové přednosti (tradice, výběr) ne reklamní žvásty (nejlepší, navštivte apod.).

Čeština

Naštěstí všechny důležité české servery češtinu zobrazují dobře a při vyhledávání textu zároveň hledají alternativu bez diakritiky. Proto nemá smysl zadávat informace bez diakritiky.

Jiné jazyky

Na anglických katalozích nemá smysl jiný jazyk než angličtina. Přidávací kontroloři pokud textu nerozumí, tak stránku prostě nepřidají. To platí jak pro české, tak anglické administrátory. Takže vždy přidávejte odkaz v jazyce, ve kterém je katalog.

Příjemnou výjimkou jsou česko-slovenské vztahy, tam snad rozlišovat jazyky není nutné. Další výjimkou je celosvětový katalog dmoz.org, který má českou větev.

Přidávání podstránek

Hodně lidí má dobrý web se spoustou zajímavých podstránek různých oborů. Ale mylně se domnívají, že katalogy nějak automaticky zařadí všechny stránky jejich webu. To sice platí pro fulltextové roboty, ale rozhodně ne pro katalogy. Třeba někdo má osobní stránky, které do katalogů přidá, ale další tamní dobré informace (třeba o hudbě, koníčcích a pod.) zůstanou světu skryty.

Takže pokud jsou vaše podstránky zajímavé, přidávejte je. Administrátoři to nemají úplně rádi (chtějí zabránit podvodům), ale pokud si toho nevšimnou, tak to v pohodě přidají.

Pokud ale budete mít stránek třeba v Seznamu hodně, může se vám stát, že na to jednoho dne někdo přijde a promaže to.

Příklady katalogů

Nejznámějšími a nejlepšími českými katalogy jsou Seznam, Atlas a Centrum . Nyní se snaží také Tiscali, Quick, Caramba a spousta dalších. Ze zahraničních katalogů má smysl být v Yahoo a v Open Directory Project.

Tematické katalogy

http://www.dmoz.org/

http://www.yahoo.com/

http://www.centrum.cz/

http://www.atlas.cz/



Existuje jich čím dál tím víc. Pokud třeba děláte stránky o kočkách, doporučuji hledat třeba v Google něco takovéhoto:

kočky "přidat odkaz"

Přidáním svých stránek do tematických katalogů sice možná nezískáte hodně návštěvníků, ale můžete získat nějaké tematické body v očích fulltextových vyhledávačů.


O GooglePodle čeho Google řadí - Page Rank - Těžké začátky stránky na Google -Duplicitní obsah - Penalizace - Co Google nevidí - Proč je Google důležitý - Co umožňuje Google webmasterům - Meta tag googlebot - AdWords a AdSense

Tento text je určen provozovatelům stránek, kteří se chtějí trochu zorientovat v tom, jak Google funguje a co webmasterům nabízí.

Podle čeho Google řadí

Je známa spousta faktorů. Nikdo sice neví úplně přesně, jak moc je které pravidlo důležité a podle čeho Google řadí výsledky hledání (Google drží jako tajemství), ale pár věcí je evidentních.

Budu hledat slovo W. Jak vysoko bude moje stránka A ve výsledcích? Co na to má vliv: V první řadě Google samozřejmě prohledává text stránky, titulek a adresu a hledá v nich slovo W (jako to dělaly předchozí úspěšné vyhledávače), ale to zdaleka není jediné kritérium. Každá stránka má Page Rank, číslo vyjadřující důležitost stránky. Je tím vyšší, čím více jiných stránek

na stránku A odkazuje. Strašně důležitý je text odkazů zvenku, které na stránku A míří, zejména pokud obsahují hledané slovo

W. Google každou stránku A zařazuje do jakýchsi tematických skupin podle toho, jaké jiné stránky na

stránku A míří a jaká obsahují důležitá slova. Záleží na tom, kde ve stránce se hledané slovo W nachází. V titulku a v nadpisech má větší váhu než v

ostatním textu. Možná existují i další kritéria, která neznám. Pro výslednou pozici stránky A ve výsledcích hledání slov se to nějak nakombinuje. Přesný způsob

kombinace je jednak pravděpodobně tajný a jednak se dost často mění.

Page Rank

Page Rank je skalární číslo přiřazené každé stránce. Vyjadřuje něco jako věrohodnost nebo důležitost stránky, dosahuje hodnot od nuly do jedné. Google si Page Rank počítá (zjednodušeně řečeno) podle toho, kolik a jak důležitých stránek na tu počítanou stránku odkazuje. Existuje na to vzoreček.

Vzorec PageRanku

Je to trochu matiky, tak to kdyžtak přeskočte, není nutné to chápat detailně. PageRank stránky A označím jako PR(A). Vypočítá se z PageRanků stránek, které na ni odkazují. To jsou stránky T1 až Tn.


http://www.jakpsatweb.cz/google.html#adwords%23adwords

http://www.jakpsatweb.cz/google.html#googlebot%23googlebot

http://www.jakpsatweb.cz/google.html#umoznuje%23umoznuje

http://www.jakpsatweb.cz/google.html#umoznuje%23umoznuje

http://www.jakpsatweb.cz/google.html#dulezity%23dulezity

http://www.jakpsatweb.cz/google.html#nevidi%23nevidi

http://www.jakpsatweb.cz/google.html#penalizace%23penalizace

http://www.jakpsatweb.cz/google.html#duplicitni%23duplicitni

http://www.jakpsatweb.cz/google.html#zacatky%23zacatky

http://www.jakpsatweb.cz/google.html#pagerank%23pagerank

http://www.jakpsatweb.cz/google.html#radi%23radi


PR(A) = (1-d)/m + d * ( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) )

kde d je dampening faktor (nastavený pravděpodobně na 0,85), m je celkový počet zaindexovaných stránek. C(T) je počet odkazů vedoucích ze stránky T. Jako vstupní hodnoty PR(Ti) se berou hodnoty PageRanku stránek z minulé iterace. Vzoreček po několika iteracích dobře konverguje (tím lépe, čím je nižší d). Hodnoty PageRanku všech stránek se pohybují těsně nad nulou.

Originální dokumentace uvádí vzoreček trochu chybný:PR(A) = (1-d) + d * (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) je to špatně, chybí tam to m.

A teď česky

Vzorec se dá zjednodušeně přetlumočit tak, že stránka předá část svého PageRanku stránkám, na které odkazuje. Čím víc obsahuje odkazů (hodnota C), tím méně každé stránce předá.

Tím, že stránka obsahuje odkazy, o svůj PR nepřichází. Spíše než o "předávání" bych měl mluvit o "kopírování" nebo "přeposílání" PageRanku. Čím méně má stránka odkazů, tím víc Page Ranku se každým odkazem přeposílá.

PageRank nijak nezávisí na hledaném slově (je to veličina skalární). Page Rank má každá jednotlivá stránka, nikoliv celý web dohromady (site, doména).

Čím má stránka vyšší PageRank, tím bude pravděpodobně výše ve výsledcích. Pozor! Page Rank zdaleka není jediné kritérium pro nalezení stránky v Google. Poslední dobou kolem Page Ranku vypukla na webu doslova hysterie. Page Rank je jistě velmi důležitý, ale jeho význam je podle mého názoru přeceňován.

Jak zjistit Page Rank

Nainstalujte si Google Toolbar, malý prográmek dostupný zdarma na Google (v létě 2003 byla uvolněna druhá verze). Kromě jednodušší práce s hledáním se pomocí Google Toolbar přibližně dozvíte, jak velký PR má právě prohlížená stránka.

Na toolbaru se objevuje měřítko Page Ranku od 0 do 10. Google Toolbar má velmi dobrou nápovědu (maká se na české verzi), ze které se dozvíte podrobnosti. Zejména to, že:

PageRank zobrazený na Toolbaru není skutečný PageRank, ale nějaká jeho odvozenina (patrně logaritmická). (PR šest na toolbaru může znamenat třeba skutečný PR=0,00000008.) Tento na toolbaru zobrazovaný PR říkejte, až se vás někdo zeptá, jaký máte PageRank.

Pokud se ukazuje PR 0, může to znamenat dvě věci. Buďto Google stránku ještě nezná (neindexoval ji), nebo je stránka natolik nevýznamná, že má skutečně PR = 0

Pokud se neukazuje nic, stránka není v Google indexu nebo má toolbar na chvilku výpadek. Je potřeba to zkusit po nějakém čase znovu.

Vyčerpávající článek o Google Toolbar PageRanku jsem napsal pro Lupu.

Jak zvýšit svým stránkám PR

Postarejte se, aby na stránku vedlo co nejvíc odkazů ze stránek, které mají vysoký PR. Jinak to nejde. To se nejsnáze dělá v katalozích. Jakmile ale nemá vyhlédnutá stránka katalogu na toolbaru PR alespoň 4, je otázka, zda má cenu mít na takové stránce odkaz. Dobrý nápad je oslovovat spřízněné weby se žádostí o výměnu odkazů. Čím méně je na zdrojové stránce odkazů, tím je odkaz hodnotnější.

Existují matematické modely, které ukazují, jak se dá vzájemným prolinkováním stránek na určitých stránkách webu koncentrovat PR z jiných stránek. Nejčastěji se doporučuje mít na

http://www.lupa.cz/clanek.php3?show=3916

http://toolbar.google.com/

http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

každé stránce odkaz na domovskou stránku. Je to jedna z mnoha metod a rozhodně není univerzální, někdy je dokonce kontraproduktivní (to když je na hlavní stránce málo hodnotného obsahu).

Jednoduchým výsledkem modelů je to, že by se na stránky mělo dávat co nejméně "odkazů pryč" mířících na cizí stránky ven z webu, aby se na stránkách koncentroval Page Rank. Podle mých výpočtů to ale není zas tak podstatné. Je to zbytečné škudlení. Mnohem lepšího výsledku než odstraněním vnějšího linku se dá dosáhnout přidáním další stránky s hodnotným (nejlépe unikátním) obsahem.

Co to znamená Page Rank (nebo PageRank)

Rank znamená hodnocení. "Page" je příjmení jednoho ze zakladatelů Google (Larry Page a Sergey Brin). Takže Page Rank je to vlastně "Hodnocení pana Page". Často se uvádí výklad Page = angl. stránka, takže Page Rank = stránkový rank. To je špatné vysvětlení.

Těžké začátky stránky na Google

Když je stránka (tedy URL) úplně nová, tak o ní Google neví. Ale stačí, aby se na ni někde objevil odkaz nebo aby někdo stránku navštívil s nainstalovaným Google Toolbarem a Google se o ní tak dozví. V nouzi se dá stránka Googlu i vnutit.

Google robot (Googlebot) si přijde pro obsah stránky. Stránku si stáhne a někde uloží. Asi tak 40 hodin poté se stránka může začít objevovat ve výsledcích. Může, ale nemusí.

Nová stránka se objevuje ve výsledcích, pokud na ni vede dostatečné množství odkazů z dostatečně významných stránek. Co je to "dostatečně", to přesně nikdo neví.

Nová stránka se tedy ve výsledcích objevit nemusí, pokud nemá dostatek zpětných odkazů.

Hodně nových stránek se ale dostane do výsledků velmi rychle a jsou hodně nahoře. V tu chvíli si majitel mne ruce a bouchá šampaňské. Chyba.

Efekt Everflux

Everflux je označení pro aktuální databázi nových stránek. Jakmile je stránka nová, zobrazuje se na Google z této databáze. Robot, který stránku nasbíral, bývá označován jako freshbot.

Po pár dnech (tři, čtyři) ale stránka z databáze nových stránek zmizí. V tu chvíli není na Google k nalezení. To je situace, ve které lidé propadají panice. Nepropadejte panice.

Po několika dnech až týdnech (řekněme 12 dnů je tak asi průměr) se nová stránka ve výsledcích opět objeví. Tentokrát už je z hlavního indexu, nasbíral ji jiný robot označovaný jako deepbot. Sice stránka už není tak hodně nahoře jako původně, ale její situace je vcelku stabilní.

Málo zpětných odkazů

Může se ovšem stát, že stránka sice ve výsledcích chvíli byla, ale pak už vypadne a prostě není k nalezení. V takové situaci hodně pomáhá přidání zpětných odkazů, to mám docela vyzkoušené. Zpětné odkazy se shánějí špatně, ale měly by stačit odkazy z jiných vlastních stránek nebo registrace v několika katalozích.

Duplicitní obsah

http://www.google.com/addurl.html

Dost lidí má naprosto stejný obsah na různých stránkách nebo doménách. Kdyby vyhledávače neuměly rozeznat, že jde o stejný obsah, uživatelům by se to nelíbilo, protože by ve výsledcích dostávali mnoho naprosto stejných stránek. Možná si pamatujete, že se tak ještě nedávno mnoho vyhledávačů chovalo.

Takže vyhledávače mají algoritmy, kterými zjišťují, zda jde o stejný obsah. Dokonce jsou prý schopné poznat, že se stránka liší třeba jen navigací. Ty algoritmy asi nikdo přesně nezná. Pokud vyhledávače duplicitu zjistí, chovají se různě.

Google duplicitní stránky indexuje tak, že si vybere jednu stránku z mnoha stejných a ostatní ignoruje. To je dost rozumné chování. Je na to ale potřeba myslet, když obsah někam kopírujete, protože se vám může stát, že Google zaindexuje zcela jinou stránku, než chcete.

Zásadní doporučení proto zní: nekopírujte obsah zbytečně. Pokud musíte mít obsah na více místech, zvažte použití nějakého přesměrování na jednu stránku, nejlépe přesměrování na straně serveru.

Google počítá každé duplicitní stránce (url) PageRank zvlášť. Zní to logicky, ale je to nepříjemné u výchozích souborů (index, default apod.). Příklad: mám stránkuhttp://www.doména.cz/

Google ji chápe jako jinou stránku nežhttp://www.doména.cz/index.html

Z odkazů, které vedou do rootu /, počítá PageRank pro root, z odkazů, které vedou na index, se počít PageRank pro index.html. Co z toho plyne: rozhodněte se, jaké url budete prefereovat a na něj směřujte (a doporučte směřovat) všechny odkazy.

Penalizace

Na základě znalosti vzorečku pro Page Rank dají vytvořit "klikací farmy" (množiny navzájem prolinkovaných stránek s náhodným obsahem). Webmasteři používají ke zmatení vyhledávačů i skrytý text obsahující klíčová slova, neviditelné odkazy a jiné další metody. To se Googlu nelíbí, a tak přistoupil k penalizaci takových praktik.

Pravděpodobně to dělají nějakým algoritmem, který podvodné stránky vyhledává. Pracovníci Google navíc sami takové stránky sami vyhledávají. Také se jim dá napovědět. Znáte-li stránku používající nějaké takové nekalé praktiky, můžete ji nabonzovat na stránce Spam report (anglicky). Pokud lidé z Google usoudí, že máte pravdu, podvodnou stránku z indexu vyřadí nebo jí nastaví nějakou jinou penalizaci. Dá se to použít na likvidaci nekalé konkurence :-)

Co Google nevidí

Jsou způsoby, jak zaručit (chtěně či nechtěně), aby na stránku Google nepřišel či ji nebral v úvahu:

1. nenamířit na stránku žádný odkaz 2. pomocí meta tagů robots nebo pomocí souboru robots.txt zakázat indexování 3. udělat ji nějak zakódovanou nebo v blbém formátu (prezentace Powerpointu fakt není to pravé) 4. dát do adresy za otazník proměnnou search=, find= nebo phpssesid=, např. http://cokoliv.cz/page.php?

search=1235 Google pravděpodobně nezaindexuje, protože to search považuje za výsledky hledání.

Dříve (až do jara 2004) nebral Google v úvahu stránky, které obsahovaly parametr id=. Nyní už je v úvahu bere.

http://www.jakpsatweb.cz/vyhledavace.html#robots

http://www.google.com/contact/spamreport.html

http://www.google.com/contact/spamreport.html

http://www.jakpsatweb.cz/clanky/podvodne-seo-techniky.html

http://www.jakpsatweb.cz/presmerovani.html#server

Dále se uvádí, že má Google nerad moc komplikované adresy, které mají za otazníkem příliš mnoho parametrů. Ale nyní (podzim 2003) je indexuje mnohem více než dříve. Na jaře 2004 začal indexovat adresy se třemi parametry.

Proč je Google důležitý

Přes vyhledávání Google chodí na české stránky už asi třetina lidí (psáno na jaře 2003, druhou třetinu zaujímá podle mých měření Seznam) a tento podíl se bude dále zvyšovat.

Google je důležitý nejen protože přes něj hledá strašně moc lidí, ale hlavně tím, že jej všechny vyhledávače budou napodobovat. I kdyby o svojí pozici nejlepšího vyhledávače přišel, jeho nástupci budou mít hodně podobné algoritmy a zásady. Např. nejlepší český vyhledávač Jyxo se částečně inspiruje Googlem a netají se tím.

Co Google umožňuje webmasterům

Znáte to většinou sami. Kromě normálního hledání: pokročilé hledání podle data, formátu souboru hledání obrázků archivování stránek nalezení odkazů mířících na konkrétní stránku spoustu dalších věcí a vyhledávání v rámci jedné domény

Prohledání jednoho webu

Pro webmastery je právě klíčově důležité prohledávání jedné domény. Dá se tak udělat hledací formulář na vlastní stránky. Jsou dva způsoby:

zkusit si pokročilé hledání omezené na moji doménu a z výsledků udělat parazitní formulář nebo se u Google zaregistrovat na free search. Pošlou kód formuláře a navíc lze barvy výsledku

přizpůsobit vzhledu vlastního webu.

Kde je registrace: Vše o Google Business Solutions > Google Web Search > Google Free WebSearch.

Odkliká se registrace a pokud si chcete nastavit vzhled výsledků (zejm. barvy), dá se to na Customizable Google Free WebSearch and SiteSearch.

Vizte příklad formuláře hledajícího na stránkách dusan.pc-slany.cz a příklad obarvených výsledků hledání slova "pokus".

Hlavní nevýhodou "googleovského prohledání webu" je to, že když je v adrese webu adresář, např. doména.cz/adresář/, tak Google pochopí jako web to doména.cz, hledá tam všude a na adresář nebere zřetel. Takže když má třeba někdo stránky na Swebu na adrese třeba www.sweb.cz/adresář/, tak má prostě smůlu a googleovský hledací formulář na prohledávání těch stránek použít nemůže, protože by to hledalo na celém www.sweb.cz. (Na prohledávání takového webu se dá použít Atomz.)

Když chcete něco najít na konkrétním cizím webu, nemusíte přes pokročilé hledání. Stačí do normálního hledání napsat třeba:xhtml site:www.sovavsiti.cz

a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo

http://www.sovavsiti.cz/

http://www.atomz.com/

http://www.google.com/custom?domains=dusan.pc-slany.cz&cof=GIMP:navy;T:black;LW:48;BIMG:http://dusan.pc-slany.cz/images/pozadi2.gif;ALC:#cc6633;L:http://dusan.pc-slany.cz/images/kvet.gif;GFNT:%23888888

http://www.google.com/custom?domains=dusan.pc-slany.cz&cof=GIMP:navy;T:black;LW:48;BIMG:http://dusan.pc-slany.cz/images/pozadi2.gif;ALC:#cc6633;L:http://dusan.pc-slany.cz/images/kvet.gif;GFNT:%23888888

http://dusan.pc-slany.cz/search.htm

http://www.google.com/services/free.html

http://www.google.com/searchcode.html

http://www.google.com/searchcode.html

http://www.jyxo.cz/

Feynman site:cz

hledá infromace o nejgeniálnější bytosti dvacátého století v doméně cz. Pozor, to není totéž co hledat v češtině. Pozor, za dvojtečkou není mezera.

Hledání na vlastním serveru -- více informací a další možnosti.

Zpětné odkazy

Pokročilé hledání Google umožňuje zjistit, jaké stránky odkazují na tu vaši. Je tam možnost "najít stránky odkazující na stránku:" a místo pro zadání adresy. Nebo se to dá i z normálního hledání zápisemlink:http://ta.adresa.cz

najít stránky odkazující na konkrétní stránku. To je pro autory stránek velice zajímavá informace. Pozor, jsou vypisovány pouze důležité stránky. Pokud na nějakou stránku míří odkaz z nepodstatné stránky (PageRank menší než asi 4), Google ji nevypíše.

Meta tag googlebot

Kromě klasického meta tagu robots akceptuje indexovač Google jeden zvláštní meta tag googlebot<meta name="googlebot" content="nosnippet,noarchive">

snippet / nosnippet

Vypisovat / nevypisovat úryvky (ukázky) ze stránky. Pokud je nastaven "nosnippet", nevypisuje Google žádné úryvky v textu stránky. Maximálně se jako popisek objeví popisek stránky -- to je obvykle text uvedený v <meta name="Description" content="popis stránek">, ale popisek musí obsahovat všechna hledaná slova.

archive / noarchive

Archivovat / nearchivovat verzi stránek v archivu (neboli cache) Google. Pokud dám noarchive, nedostanete se ke staré verzi mých stránek, pokud ji z webu odstraním. V opačném případě bude mít Google uchovanou kopii mých stránek a i když je z webu odstraním, tak například právě přes Google se na ně dostanu, přestože již fyzicky neexistují.

Yuhů: Osobně doporučuji meta tag googlebot moc nepoužívat. Když se nezadá, tak to Google chápe jako snippet,archive. Takové nastavení umožňuje přesnější vyhledávání (Google si udržuje cache kvůli přesnosti) a je větší šance, že si na to uživatel klikne, když uvidí hledané slovo v kontextu (snippet).

AdWords a AdSense

AdWords je reklamní produkt Google. Zobrazuje reklamní textové odkazy v pravém sloupečku vyhledaných výsledků. Do systému si můžete zadat i svoji reklamu. Stanovíte si klíčová slova, fráze a jazyk. Zvolíte maximální cenu, průměrnou cenu za kliknutí a celkový rozpočet. U málo frekventovaných slov se lze dostat na minimální cenu asi korunu čtyřicet za proklik. Rozhraní je zatím pouze v angličtině, ale lze do něj bez problémů zadávat české reklamy a texty.

Na důležitá klíčová slova má Google větší poptávku než nabídku (prostě nemá prostor), a tak spustil produkt AdSense. Ten umožňuje webmasterům (po registraci do Google) umístit

https://www.google.com/adsense/

http://www.google.com/ads/

http://www.jakpsatweb.cz/meta-tagy.html#robots

http://www.jakpsatweb.cz/hledani.html

určitý reklamní kód do stránky. Na místě reklamního kódu se bude zobrazovat textová reklama posílaná z Google, tematicky související s obsahem stránky. Jde o tatáž reklamní sdělení, která jsou zadána v AdWords. Pokud si čtenáři stránky na reklamu kliknou, dostává webmaster od Google provizi (a Google si započítá proklik na účet klienta, což je ovšem v pořádku). Výše provize mi není známa.

Každopádně AdSense nefungují pro stránky psané v češtině. Pokud se budete snažit přidat českou stránku do AdSense, tak to nepůjde. (Někteří chytráci si zaregistrují stránku v angličtině a pak si dávají reklamu i na české stránky, ale je to proti pravidlům.) V systému AdWords je totiž zatím příliš málo českých reklamních sdělení, než aby měl Google zájem pouštět je mimo výsledky hledání. Aspoň tak mi to vysvětlila manažerka pro Google in your language.


Meta tagyPopisek = description - Další informace pro vyhledávače - Čeština - Automatické přesměrování - Generator - Author apod. - Neukládání a vypršení - Pics-label - Microsoftí meta tagy - Vlastní meta tagy - Atribut Lang - Obecná syntaxe

Meta tagy jsou zvláštní značky, které se píšou do hlavičky stránky. V každé stránce je potřeba použít:

meta tag pro kódování a hodně doporučuji description.

Většina ostatních meta tagů se použije zřídka, ale je dobré vědět, co umějí. Spousta autorů meta tagy plýtvá, aby ukázali, jak jsou strašně chytří. Méně je ale více.

Když jsem před sedmi lety (aktualizováno 2005) tuto stránku začínal psát, byly meta tagy velmi důležité. Postupem času ale jejich význam zásadně klesá.

Popisek = description

Popis obsahu stránky se zadává meta tagem description, např:<meta name="description" content="Popis tvorby a publikování WWW stránek pro začátečníky i profesionály.">.

Některé starší vyhledávací stroje (např. Altavista) si všímaly popisu stránky zadaného autorem a pokud stránku vypisují v seznamu nalezených, připojují k titulku stránky i tento popis. Google vypisoval popisek tehdy, pokud obsahuje hledané slovo. Takže se ve výpisu pod titulkem objevíPopis tvorby a publikování WWW stránek pro začátečníky i profesionály.

Kdybych výše zmíněný tag nevložil, tak by se mohlo objevit třeba:V této sekci: Základní kurz Prvky stránek Barvy Provoz webu Další sekce:

to je začátek zmíněné stránky a vypadá trochu blbě.

Jak si postupem času vyhledávače přestávají meta tagu description všímat, jeho smysl se poněkud ztrácí.

http://www.jakpsatweb.cz/meta-tagy.html#description%23description

http://www.jakpsatweb.cz/meta-tagy.html#cestina%23cestina

http://www.jakpsatweb.cz/meta-tagy.html#syntaxe%23syntaxe

http://www.jakpsatweb.cz/meta-tagy.html#lang%23lang

http://www.jakpsatweb.cz/meta-tagy.html#vlastni%23vlastni

http://www.jakpsatweb.cz/meta-tagy.html#dalsi%23dalsi

http://www.jakpsatweb.cz/meta-tagy.html#dalsi%23dalsi

http://www.jakpsatweb.cz/meta-tagy.html#pics-label%23pics-label

http://www.jakpsatweb.cz/meta-tagy.html#cache%23cache

http://www.jakpsatweb.cz/meta-tagy.html#author%23author

http://www.jakpsatweb.cz/meta-tagy.html#generator%23generator

http://www.jakpsatweb.cz/meta-tagy.html#presmerov%C3%A1n%C3%AD%23presmerov%C3%A1n%C3%AD

http://www.jakpsatweb.cz/meta-tagy.html#presmerov%C3%A1n%C3%AD%23presmerov%C3%A1n%C3%AD

http://www.jakpsatweb.cz/meta-tagy.html#cestina%23cestina

http://www.jakpsatweb.cz/meta-tagy.html#popis%23popis

http://www.jakpsatweb.cz/meta-tagy.html#description%23description


Další informace pro vyhledávače

Klíčová slova

Nejdůležitější vyhledávač Google dnes (2002) klíčová slova už ignoruje. Aby starší vyhledávací stroje (Altavista a spol.) snadněji pochopily, o čem se na té které stránce píše, lze jim sdělit, jaká jsou klíčová slova textu. Do hlavičky dokumentu se vloží tag<meta name="keywords" content="hudba,kytara,flétna,fletna,Oldfield,Asonance,Spirituál">.

Tato klíčová slova mám na stránce hudby. Když do Altavisty zadám kytara, moje stránka bude pravděpodobně nalezena (spolu s miliónem dalších). Klíčová slova se oddělují čárkami bez mezer. Mám-li klíčová slova s diakritikou, zapisoval jsem je dvakrát, jednou s nabodeníčky a podruhé bez nich. To je dnes (2003) už naprostá zbytečnost, protože všechny důležité české vyhledávače hledají česky a diakritiku překlápějí. Google, který diakritiku nepřeklápí, zase ignoruje keywords.

U keywords se dá použít atribut lang, ale nevím, zda to má nějaký význam.

Indexování

<meta name="robots" content="noindex,follow"> říká robotům vyhledávačů (Altavista, Webfast, Google apod.), že stránku nemají zařazovat do seznamů, ale že mají sledovat hyperlinky v ní obsažené. To se vyplatí jenom u naprostého minima stránek (například obsah levého rámu s obsahem, ten by zobrazen v celém okně mátl). Další hodnoty index nebo nofollow jsou zřejmé. Více v textu o vyhledávacích robotech.

Pro Google

Google akceptuje meta tag googlebot. Příklad zakázání výpisu úryvku stránky a zákazu archivovat:<meta name="googlebot" content="nosnippet,noarchive">

Jazykové nastavení

<meta http-equiv="Content-language" content="cs">

Informace o použitém jazyce. Slouží prý zejména pro automatické přepínání jazyka, pokud je dokument ve více verzích. Nevěřím tomu.

Čeština, nastavení kódování

Existuje spousta pracných způsobů, jak zajistit na Internetu správné kódování češtiny. Jednoduše se to dá udělat využitím následujícího tagu, který se zadává do hlavičky html souboru:<meta http-equiv="Content-Type" content="text/html; charset=windows-1250">

Tím říkám, že dokument je kódován v kódování windows-1250. V případě jiných kódování se namísto windows-1250 píše norma kódování, která může být různá.

Lepší než kódování windows-1250 je používat Latin-2 (ISO 8859-2). Pak to vypadá takto:<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-2">

Charset pro kódování UTF-8:

http://www.jakpsatweb.cz/google.html#googlebot




http://www.jakpsatweb.cz/meta-tagy.html#lang%23lang


<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

Tento meta tag se má správně používat ještě před titulkem (tag <title>), protože kdyby titulek obsahoval čárkovaná písmena, a meta tag by byl až za ním, nemusí se pak v Exploreru stránka vůbec zobrazit.

Češtinou se zabývám na samostatné stránce.

Automatické přesměrování

Do hlavičky (to jest mezi tagy <head> a </head>) se vloží tento tag:

<meta http-equiv="refresh" content="6;URL=http://www.nekam.cz/cokoliv ">,

kde 6 je počet sekund, který server vyčká před začátkem přesměrování, a adresa se zřejmě zadává jiná. Http protokol se potom pokusí do stejného okna načíst stránku specifikovanou v URL. Zadá-li se bez URL, obnovuje se tatáž stránka, teoreticky donekonečna. Více o přesměrování.

Generator

Specializované programy na psaní HTML vkládají do svých výtvorů meta tag s popisem, že stránka vznikla s jejich pomocí. Například FrontPage tam vkládá<meta name="generator" content="Microsoft FrontPage 3.0">

Tato informace nemá praktické využití, proto tento řádek zásadně mažu. Navíc například FrontPage při každém ukládání tento tag přepíše, jakoby stránku udělal on, i když ji neudělal.

Některé HTML editory si do dokumentů vkládají meta tagy, které používají pro svoji potřebu. Například FrontPage si tak drží informace o použití sdílených okrajů (shared borders) nebo použitých motivů (themes).

Author apod.

<meta name="author" content="Dušan Janovský">

Je to úplně na nic, ale já to dávám do stránek, když jsem smutný a chci se proslavit.

Občas jsou na zdrojových kódech k vidění meta informace typu copyright, company a podobné. Nemá to žádný praktický účel, je to podobné, jako když pejskové počůrávají patníky.

Neukládání a vypršení

Pomocí meta tagů se dá také omezeně nastavit, že se stránka nemá ukládat na počítači klienta a ve vyrovnávacích pamětech cache.<META http-equiv="cache-control" content="no-cache">

Kromě hodnoty no-cache, která zabraňuje cacheování obecně, se uvádějí nepoužitelné hodnoty public, private (neukládat ve veřejných cache) a no-store (ukládat ale nearchivovat). Cache-control má i více vlastností, které jsou specifikovány v protokolu http 1.1.

Ukládání obecně by měl zabránit také zápis<META http-equiv="pragma" content="no-cache">

http://www.jakpsatweb.cz/frontpage/index.html

http://www.jakpsatweb.cz/presmerovani.html

http://www.jakpsatweb.cz/presmerovani.html

http://www.nekam.cz/cokoliv

http://www.jakpsatweb.cz/cestina.html

ale v některých verzích Internet Exploreru prý nefunguje. Bude to patrně tím, že pragma není součástí http standardu.

Varování: dobře si rozmyslete, než zakážete pro stránky ukládání a cacheování! Odříznete si tak nezanedbatelnou část čtenářů, kteří si prohlížejí stránky z domova offline. Také zvýšíte průtok dat ze serveru. Doporučuji nastavovat to jenom u stránek, které se opravdu často mění.

Vypršení

<meta http-equiv="expires" content="Sat 21 Jun 2003 20:04:00">

Prohlížeč si stránku uloží a u takto označené stránky zapamatuje, že je platná jenom do konce jara 2003. Kdyby se na ní chtěl uživatel z téhož počítače podívat v létě 2003, prohlížeč si určitě sáhne na server, protože ví, že to, co má uložené, už neplatí.

Konkrétní chování prohlížeče závisí na jeho nastavení, dá se třeba nastavit, že si prohlížeč pro novou verzi stránek sáhne vždy.

A proč to nefunguje

Žádná cache fungující na serveru (nejčastěji squid) nečte html zdroj, takže nemá šanci všimnout si meta cache nastavení.

Meta nastavení cacheování tedy funguje pouze na cache prohlížečů (Temporary Internet Files). Pokud na vypršení opravdu záleží, je třeba, aby hlavičky o expiraci posílal server.

Vizte též kešovací návod pro autory webu a webmastery.

Pics-label

Informace o (ne)závadnosti obsahu zejména z morálního hlediska. Nevím přesně, jak se používá, ale v kódu na weblogu Martina Michálka jsem našel příklad. Sice mu nerozumím, ale pro úplnost jej uvádím:<meta http-equiv="pics-label" content='(pics-1.1 "http://www.icra.org/ratingsv02.html" comment "ICRAonline v2.0" l gen true for "http://machal.creativity.cz" r (nz 1 vz 1 lz 1 oz 1 cz 1) "http://www.rsac.org/ratingsv01.html" l gen true for "http://machal.creativity.cz" r (n 0 s 0 v 0 l 0))' />

Další informace mi mailem poslal Jersywoo:

Probíhá to asi takhle(americký model):Na pornostránky vložíš tag pics-label. Nějaká maminka svému děcku nastaví v IE, že se nemají zobrazovat stránky s erotickým obsahem. Když bude se to dítě chtít podívat na tu stránku, tak se mu nezobrazí, kurňa musím frčet do Opavy na služebku, dopíšu to jindy.

Nějaké info na www.icra.org (anglicky).

Microsoftí meta tagy

<meta http-equiv="imagetoolbar" content="no" /> zruší v Internet Exploreru 6 taková ta tlačítka, když se jede myší přes obrázek (totéž se dá vypnout pomocí nestandardního atributu

<meta http-equiv="MSThemeCompatible" content="no"> v systému Win XP vykresluje stránky jakoby stylem 2000 (lišty a tlačítka).

<img ... galleryimg="no"> už si nepamatuju, co dělá.

<meta name="mssmarttagspreventparsing" content="true" /> popisuje Michal Illich v konferenci SEO, má jít o vypnutí smart tags.

http://seo.nawebu.cz/200305/0080.html

http://seo.nawebu.cz/200305/0080.html

http://www.icra.org/

http://machal.creativity.cz/

http://www.jakpsatweb.cz/clanky/caching-tutorial-czech-translation.html

<meta http-equiv="Site-Exit" content="revealTrans(Duration=1.0,Transition=12)"> přechodový filtr při natažení stránky. Má to víc nastavení, podporuje to Internet Explorer. Doporučuji nepoužívat.

Vlastní meta tagy

Do name a content si teoreticky můžete dát cokoliv, aniž byste narušili význam stránky. <meta name="hocičo" content="jakákoliv hodnota">

Takové meta tagy se pak dají použít zejména pro různé programy, které si pro práci se stránkami napíšete.

Atribut lang

U klíčových slov a popisu se dá vyznačit, v jakém jazyce klíčová slova jsou, aby je roboti snáze zařadili. Dělá se to přidáním atributu lang do tagu meta, například<meta name="keywords" content="hudba,kytara,flétna,fletna,Oldfield,Asonance,Spirituál" lang="cs">

<meta name="keywords" content="music,guitar,recorder,Oldfield,Asonance,Spiritual" lang="en">

Zřejmě je možné zaklíčování pro více jazyků. Stejně se používá u popisu (name=description). HTML verze 4.0 přináší nový obecný atribut LANG, který lze použít u čehokoliv. U meta tagů je jedno, v jaké verzi HTML je dokument psán, protože meta tagy nejsou interpretovány prohlížečem, ale HTTP protokolem nebo vyhledávacími službami. Tady se užívá "CS" (a ne CZ), protože CS je v normě ISO, která to řídí. Chápu to tak, že CZ je země, CS je jazyk.

Obecná syntaxe tagu meta

Slovo "meta" pochází tuším z řečtiny a znamená "něco, co je nad" nebo "za". Pokud html stránky chtějí říci něco, co je svou podstatou nadřazeno jejich vlastnímu obsahu, použijí tag meta.

Tagy meta se zadávají do hlavičky HTML dokumentu:<html><head><title>...</title><meta ...><meta ...></head><body>... dokument...

Prvním atributem meta je buďto "name" (obecná meta informace), nebo "http-equiv" (systémová, prohlížeč ji interpretuje stejně jako hlavičku http protokolu).

V tomto atributu je napsáno, jaký druh metainformace bude sdělován (např. meta="keywords" => budou sdělována klíčová slova). Obecně zapsáno:

<meta name="druh informace" content="obsah informace"> nebo<meta http-equiv="druh informace" content="obsah informace">

Druhým povinným atributem je "content", což znamená "obsah". Ten je roven vlastnímu obsahu metainformace. Například content="housle, smyčce, kalafuny". Existují i další nepovinné atributy, z nichž uvádím pouze lang.

http://www.jakpsatweb.cz/frontpage/fp-2000-transitions.html

http://interval.cz/clanek.asp?article=2517

SEO - Search Engine OptimizationO tvorbě webových stránek již byly sepsány stohy návodů, příruček, knih a množství webů.

Všude se popisují technologie jako (X)HTML, CSS, JavaScript, Flash a další, ale o jejich správné optimalizaci pro vyhledávače se začalo mluvit až v poslední době. A právě ona je jednou z nejdůležitějších součástí kvalitní webové prezentace.

Můžete mít výborný obsah, ale když ho nikdo nenajde, je vcelku k ničemu. Takový extrém většinou nehrozí, pokud je obsah opravdu dobrý, vyhledávač si k vám cestu najde, ale s rostoucí konkurencí začne být SEO čím dál tím důležitější.

Vyhledávače

Vyhledávače se dělí na dva základní druhy:

1. katalogové – stránku přidáte po jednoduché registraci a většinou čekáte týden (někdy také měsíc, nebo se vůbec nedočkáte) než vám ji editor schválí. V Čechách například katalog Seznamu, Centra a Atlasu. Ze zahraničních jsou nejznámější DMOZ a Yahoo.

2. fulltextové – web do nich nelze "normální" cestou přidat. Každý fulltextový vyhledávač má svého robota, který prochází všechny stránky na internetu a přidává si je do indexu. To znamená, že když na vaši stránku nevede žádný odkaz, tak ji robot (většinou) nenajde. Většina fulltextových vyhledávačů obsahuje příkaz "Přidat stránku", který by měl urychlit indexaci. U nás jsou nejvýznamnější Jyxo a Morfeo, v zahraniční pak nejlepší a nejkvalitnější fulltext vůbec – Google.

Optimalizace pro první skupinu vyhledávačů je docela jednoduchá. V podstatě záleží jenom na třech věcech – titulku, popisu a klíčových slovech (ty nejsou vždy vyžadovány). O to důležitější je jejich řádná příprava. Katalogový vyhledávač totiž při hledání prochází jenom tyto tři údaje. Některé katalogy už ale začínají zkoumat také obsah stránek, například u editoři DMOZu ručně prochází zadané stránky a přidávají jenom některé. Ale zde se snaha mnohonásobně vyplatí, protože obsah DMOZu přebírá velké množství webů. A díky tomu má pak stránka vyšší PR (PageRank). Důležité je, aby popisek obsahoval hodně klíčových slov, nejlépe v prvním pádu a osobě, ale aby také zaujal případné návštěvníky.

Podstatnější je ale pro nás optimalizace pro druhou skupinu vyhledávačů, fulltexty. Katalogy jsou sice pěkná věc, ale na množství dotazů nás nemusí výsledek hledání uspokojit. Toto pochopily i samy katalogy, a proto obsahují také většinou kvalitní fulltext. Takže optimalizace pro něj se stává klíčovou.

Google

Fulltextových vyhledávačů je celá řada, my se ovšem zaměříme na nejlepší z nejlepších – Google. Optimalizační kroky uvedené pro něj budou do velké míry platit i pro ostatní.

Google používá robota, který se jmenuje Googlebot. Ten prochází internet a pomocí odkazů se dostává na další a další stránky. A pokud narazí na novou nebo změněnou stránku, tak si ji uloží. K hodnocení stránek používá svoji vlastní technologii PageRank, která je ovlivněna více než stem faktorů. Každá jednotlivá stránka má svůj vlastní PageRank (PR). Jeho přesný výpočet není znám a Google ho pro větší objektivitu často mění. Přibližný návod jeho výpočtu najdete na stránkách firmy IPR Computing Ltd . V kostce záleží na počtu stránek, které na vás odkazují, na velikosti jejich PR a počtu odkazů, které obsahují. Čím více zpětných odkazů, tím, samozřejmě, lépe. Pokud hodně kvalitních (s vysokým PR) webů odkazuje na určitou stránku, tak to pro Google znamená, že i ona stránka bude pravděpodobně něčím zajímavá.

http://www.iprcom.com/papers/pagerank/

http://interval.cz/clanek.asp?article=2517

Bohužel, nebo možná bohudík, není PR veřejný, takže ho nelze nijak zjistit. Jedinou možností je orientace podle Toolbar PR, který zjistíte na Google Toolbaru a v Google Directory. Toolbar PR se pohybuje v rozsahu od nuly do desítky. Toolbar PR je pouze zástupná a nijak nezaručená hodnota skutečného PR.

Každý měsíc probíhá na Google velká aktualizace databáze, zvaná Google Dance. Na SEO Chat můžete zjistit, jestli právě probíhá aktualizace. To se zjišťuje tak, že se porovná množství zpětných odkazů nějakého velkého serveru (Yahoo, Microsoft a podobně) poskytnutých servery www.google.com, www2.google.com a www3.google.com. Pokud se jejich počet liší, pak s největší pravděpodobností probíhá Google Dance. V tuto dobu můžete na svůj dotaz dostat každých pět minut jiný výsledek – záleží to na tom, kterému serveru byl dotaz položen. V době Google Dance vám nedoporučuji zjišťovat Toolbar PR webů, protože můžete dostávat nepřesné výsledky.

V poslední době se ale zdá, že se Google uchýlí k průběžným aktualizacím a index bude doplňovat neustále. Google Dance by se tak stal minulostí. Poslední Google Dance proběhl 15. června 2003 a od té doby probíhají průběžné aktualizace.

Další věcí, o kterou se Google snaží, je rozpoznat typ webu. A zabránit tak například u diskusních fór guestbook spammingu, kdy uživatelé posílají stovky příspěvků s odkazem na svůj web, ve snaze si tak zvýšit svůj PR. Odkazy z diskusních fór mají být ignorovány.

Off-page faktory hodnocení stránek

Hodnocení stránek se dělí na dva základní druhy, na on-page a off-page faktory. Do off-page faktorů patří především již zmíněné zpětné odkazy. Obecně jsou to ty vlastnosti, které nemůžeme přímo na své stránce ovlivnit. I když i to je relativní, jeden výborný způsob existuje - psát zajímavý obsah! Obsah, na nějž budou ostatní rádi odkazovat. Zde mají nekomerční projekty do jisté míry zjednodušenou úlohu, protože vzájemné odkazování probíhá o hodně jednodušeji. U komerčních projektů je důležitá důkladná registrace do většiny katalogů, nejlépe ruční. Dobrým způsobem je na komerčních stránkách psát také nekomerční obsah. Například webdesignerská firma uvolní část svého know-how a na svých stránkách bude vydávat CSS příručku, tím zvýší svoji popularitu, PR svého webu a bude mít větší množství zakázek. Můžete se také domluvit s webmastrem cizího webu (třeba z úplně jiného oboru) s tím, že si vzájemně vyměníte odkazy. Zde si ale dávejte pozor na link exchange.

Link exchange

Nebo-li když stránka A odkazuje na stránku B a stránka B zpátky na A. Podstatu problému vysvětlím na příkladu. Máme stránku www.A.cz, která má PR 1 a stránku www.B.cz, taktéž s PR 1. Obě stránky obsahují 10 odkazů. Stránka A předá B 0,1 svého PR a B zpátky A taktéž 0,1 svého PR. To znamená, že výsledný efekt bude nulový.

V praxi to samozřejmě nefunguje přesně takto, takže i link exchange mají svůj význam, nelze ho však přeceňovat. Lepší by bylo, kdyby obě stránky obsahovaly samostatnou stránku odkazy.htm, kde by byly umístěny všechny odkazy na ostatní weby.

Link trading

Link trading je placená služba. Jedná se vlastně o obchod s PR, což se samozřejmě Google nelíbí. Není se co divit, PR má udávat kvalitu dané stránky. Některé firmy nabízí, že za určitý poplatek na vás budou odkazovat. V rozumné míře, pokud si u nějakého webu koupíte odkaz, se pravděpodobně nic nestane. Ale při využití služeb firmy, která se link tradingem živí, můžou nastat problémy. Google tuto snahu trestá, takže výsledný efekt může být přesně opačný - penalizovaný web.

Text v odkazu (Inbound link relevance)

http://googledance.seochat.com/

http://directory.google.com/

http://toolbar.google.com/

Text v odkazu je velmi důležitý, je to jeden z významných faktorů, který Google používá k hodnocení stránek. Protože text mezi tagy <a> a </a> většinou udává, co na dané stránce je. Proto je důležité před registrací stránky do katalogů vymyslet takový titulek stránky, který bude obsahovat klíčová slova, pro než chcete stránku optimalizovat, protože právě titulek se většinou používá jako odkaz na stránku. A pokud si s jiným webem vyměňujete vzájemně linky, používejte také raději textovou formu, než oblíbené ikonky.

A samozřejmě, na celém webu byste měli používat smysluplný text v odkazu, nejlépe zoptimalizovaný na důležitá klíčová slova. Úplně se vyvarujte odkazům jako více zde, dále, pokračujte a podobným. Raději použijte další informace o <a>výrobku bla bla</a>.

Důkazem efektivity této metody je web firmy Corel. Na celé stránce se nevyskytuje ani jednou slovo "draw", ale díky vysokému PR (8) a velkému množství zpětných odkazů, které povětšinou slovo "draw" obsahují, je web Corelu na dotaz "draw" na prvním místě ze současných 10 500 000 stránek.

Zjišťování zpětných odkazů

Zjišťování zpětných odkazů je také jedna z důležitých technik. Umožňuje ji většina zahraničních vyhledávačů. Nejjednodušší je dát hledat adresu své stránky a potom kliknout na "zpětné odkazy" (backward links). Zjistíte tak, které stránky na vás odkazují. Nelekněte se u Googlu, ten zobrazuje pouze odkazy ze stránek s PR 4 a vyšší.

Dále dejte na Google vyhledat klíčové slovo, pro které svoji stránku optimalizujete. A u všech konkurentů se podívejte a zanalyzujte jejich zpětné odkazy. Můžete tak například narazit na nový seznam firem nebo katalog webů z určitého oboru, kde si svůj web můžete také zaregistrovat. Konkurenty hledejte na Googlu, ale vlastní vyhledávaní zpětných odkazů provádějte raději na AlltheWeb, vrací všechny zpětné odkazy.

On-page faktory hodnocení stránek

On-page faktory jsou všechny ty, které můžete na stránce ovlivnit. Začněme pěkně od začátku. Nejdůležitější je psát dobře přístupný kód. Jestliže chcete vidět to, co uvidí Googlebot, tak si svou stránku otevřete v libovolném textovém prohlížeči bez obrázků, CSS, JavaScriptu, DHTML, Flashe a dalších "vymožeností". U dobře navržených stránkách zjistíte, že kromě grafiky vám nic nechybí. Pokud ovšem polovinu prezentace neuvidíte kvůli chybějící podpoře obrázků a druhou z důvodu chybějícího Flashe a navigace bez JavaScriptu také nefunguje, měli byste přemýšlet o restrukturalizaci celého webu.

Ještě lepší způsob je využití volně dostupného spideru Poodle. Po zadání odkazu na stránku vám spider vrátí celou hlavičku a text, který pak Google používá k indexaci. Text je barevně rozdělen na odkazy, emaily, nadpisy, popisky obrázků a vlastní text.

Struktura webu

Struktura webu je jednou z nejdůležitějších součástí kvalitní prezentace. Začněme hned u titulní stránky - http://www.stranka.cz, http://stranka.cz, http://www.stranka.cz/index.htm a http://stranka.cz/index.htm jsou pro Google čtyři rozdílné stránky. Proto doporučuji důsledné používání jenom jedné varianty, nejlépe http://www.stranka.cz. A to nejenom v katalozích, ale samozřejmě také na všech stránkách mimo titulku celého webu. S tím souvisí i pravidlo, že byste nikdy neměli na více doménách provozovat stejný obsah. Google si vybere jenom jednu doménu, pro něj tu nejdůležitější (například podle počtu zpětných odkazů) a ostatní bude do jisté míry ignorovat, nebo dokonce vaše stránky potrestá. Proto je nejlepší na všech ostatních doménách posílat hlavičku 301-Moved Permanently:

<?php header('HTTP/1.1 301 Moved Permanently'); header('Location: http://www.novastranka.cz/');

http://www.gritechnologies.com/tools/spider.go

http://www.alltheweb.com/

http://www.google.com/search?hl=en&lr=&ie=ISO-8859-1&q=draw

http://www.corel.com/

header('Connection: close'); ?>

U rozsáhlejších webů je dobrým způsobem rozdělit ho do určitých kategorií a na každé stránce zobrazit strukturu zanoření. Každá stránka by přitom měla odkazovat na titulku webu. Nepsaným pravidlem je, že "klikací" logo stránky vede na titulní stránku celého webu.

Další výborná věc pro uživatele a pro vyhledávače je mapa webu, hlavně u rozsáhlých a těžce indexovatelných projektů (například při použití rámců). Zde si ale dejte pozor na omezení Google na maximum 100 odkazů na jednu stránku. Proto u opravdu rozsáhlých stránek musíte mapu webu rozdělit ještě do kategorií. Díky ní se mohou uživatelé, kteří se ztratili, opět zorientovat a vyhledávače lépe zaindexují váš web. Doporučuji uvést odkaz na mapu webu na chybové stránce 404-Document Not Found.

Navigace v rámci vašeho webu by měla probíhat nejlépe vždy textovou formou, ne s pomocí obrázků. To platí i pro všechny další odkazy, kvůli inbound link relevance, jak bylo zmíněno výše.

Statické weby

U statické webů je každá stránka reprezentována vlastním HTML dokumentem, takže žádný problém nehrozí. Velký důraz a pozor byste si měli dát na plánování struktury všech URL. Protože jak má stránka jednou své URL, tak je dáno a je neměnné. Zatím neexistuje způsob, jak beze ztráty vybudovaného postavení přejmenovat stránku A.htm na B.htm. Do jisté míry nám může pomoci 301-Moved Permanently, ale ani toto řešení není stoprocentní. Proto musíme celou strukturu URL dobře promyslet.

Google přikládá určitou váhu i textu v URL a také uživatelé se podle něj mohou orientovat. Z tohoto důvodu byste jenom z URL měli pochopit, co na stránce najdete. Například http://ww.firma.cz/koberce/nazev-vyrobku.htm. Měli byste se vyvarovat používání podtržítka “_“ v URL, protože Google ho používá pro spojení slov.

Někteří uživatelé internetu s oblibou umazávají části URL a doufají, že se tak budou po něm jednoduše pohybovat. Také některé browsery už implementují funkci "O úroveň výš". U výše zmíněného příkladu by návštěvníci odmazali nazev-vyrobku.htm a doufali-by, že http://www.firma.cz/koberce/ vede na úvodní stránku o kobercích. Proto je dobré jim tento způsob procházení webu umožnit.

Dynamické weby

U dynamických webů samozřejmě platí všechny pravidla pro weby statické a několik dalších omezení navíc. Pokud celá dynamičnost vašeho webu souvisí pouze s koncovkou ".php", můžete zůstat v klidu. Jestliže ale generujete nový obsah z databáze a jednotlivé stránky se liší jenom parametry za otazníkem, nastává problém. Google a ostatní fulltexty s rostoucím počtem parametrů za otazníkem stránky méně ochotně indexují. Maximální rozumný počet podle Google jsou dva parametry. A parametr id Google neindexuje vůbec, protože údaje v něm považuje za identifikátor session.

Ideálním nástrojem, který takové problémy řeší, je mod_rewrite. Pak bude URL vypadat třeba jako http://www.stranka.cz/parametr1/parametr2/stranka.htm, ale díky mod_rewrite bude tato stránka ukazovat například na http://www.stranka.cz/index.php?dat=parametr1&kat=parametr2&page=stranka. V současnosti je toto považováno za jedno z nejlepších řešení. (Návod k použití mod_rewrite v českém jazyce najdete například na Sově v síti.)

Problém nastane, pokud server, na kterém hostujete své stránky, mod_rewrite neposkytuje. Můžete se pokusit přesvědčit administrátory nebo strukturu zajistit ručně.

Robots.txt

http://www.sovavsiti.cz/2003/mod_rewrite.html

Robots.txt je jednoduchý textový soubor, umístěný v kořenovém adresáři, ve kterém jsou uloženy pokyny, jakým způsobem má vyhledávač procházet váš web. Přesný popis možných příkazů (v angličtině) najdete na The Web Robots Pages. Ke kontrole správnosti zápisu můžete použít Robots.txt Validator. Pokud chcete, aby vyhledávač indexoval vše, použijte tento zápis:

User-agent: * Disallow:

Vlastní stránka

Konečně se dostáváme k vlastní tvorbě stránky. Rozhodně nedoporučuji používat rámce, a to z několika důvodů - vyhledávače jimi těžko procházejí, URL je pořád stejné (to znamená, že ostatní webmasteři budou jenom těžko odkazovat na určitou stránku) atd.

Titulek

Titulek je to základní na každé stránce. Vyhledávače na něj kladou velkou váhu, proto by měl obsahovat smysluplný text s pěti až sedmi klíčovými slovy. Na každé stránce používejte odlišný titulek, zlepšuje to o hodně orientaci uživatele i posílení klíčových slov u vyhledávače.

Elementy meta

Pro vyhledávače jsou důležité hlavně následující meta elementy:

Language – zaručuje zobrazení textu ve správném kódování. Proto je jeho uvedení velmi důležité i bez jakékoliv SEO optimalizace.

Description – obsahuje malé shrnutí obsahu stránky. Vyhledávače v něm hledají, proto je dobré v něm uvést dostatek klíčových slov. Někdy je také vyhledávači použit jako popisek k vaší stránce při zobrazování výsledků hledání.

Keywords – o meta elementu keywords se vedou diskuze, jestli má vůbec smysl ho používat. Google ho s největší pravděpodobností ignoruje úplně. Ale jeho uvedením rozhodně nic nezkazíte.

Robots – meta element robots určuje způsob, jakým bude vyhledávač pracovat se stránkou. Podle jeho hodnot můžete vyhledávači zakázat nebo povolit indexování. Implicitní hodnota je "vše povoleno".

Meta element Googlebot

Google uvedl speciální meta element, aby umožnil autorům stránek ovlivňovat své chování. Zápis vypadá následovně:

... <meta name="googlebot" content="snippet/nosnippet, archive/noarchive" /> ...

Meta element Googlebot pracuje se dvěma parametry:

Archive – zakazuje nebo povoluje ukládání stránky do Google archivu. Výchozí hodnota je "ukládání povoleno".

archive Povoluje ukládání stránky do archivu Google. Výchozí volba.

noarchive Je zakázáno ukládání stránky do archivu Google. Snippet – určuje, co bude zobrazeno uživateli ve výsledcích hledání. Jestli obsah elementu

Description nebo text „před a za“ hledaným slovem. Výchozí hodnota je "text před a za".

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

http://www.robotstxt.org/wc/norobots.html

snippet Zobrazuje se "text před a za". Výchozí volba.

nosnippet Je zobrazen obsah meta elementu Description.

Archiv stránek je výborná funkce a mnoha lidem se určitě líbí. Pokud je nějaký web zrušen a přestane fungovat, můžete se přesto díky archivu na něj podívat. Pokud ale jeho autor chce web z análů vymazat kompletně, stačí, aby do hlavičky uvedl meta element archiv, kde zakáže archivování svého webu. Potom musí počkat až Google zaindexuje novou verzi stránek a jeho web z archivu zmizí.

Je ovšem možné využít zákazu archivování i při běžném provozu webu. Například u stránky, kde je generován dynamický obsah a jejíž starší obsah je úplně nerelevantní – to může být případ kurzů měny. Zde archiv stránky ztrácí smysl.

Určitě by se ale zakazování nemělo přehánět. Je totiž plno případů, kdy nám může archiv pomoci. Pokud má web výpadek, mnoho jiných způsobů, jak se k důležitým informacím dostat, není. Další případ může být web, kde je starší obsah posouván mimo hlavní stránku a nahrazován novým obsahem. Potom by vyhledání informace mohl být problém, ale s využitím archivu je vše otázkou několika vteřin.

Snippet je část stránky kolem hledaného slova, kterou Google zobrazí v jejím popisku na stránce s výsledky hledání. Někdy je tato informace užitečná, ale někdy se zobrazuje například část menu nebo jiné nezajímavé údaje. Proto dal Google webmasterům možnost zvolit si, co se bude jako popisek zobrazovat.

Použití meta elementu Description má své výhody i nevýhody. Například webmasteři firemních prezentací mohou přesně oslovit a zaujmout uživatele, zatímco u konkurence se zobrazí jakási podivnost. Na druhou stranu si představte, že hledáte nějakou komerční firmu a ve výsledku hledání se zobrazí nabídka patnácti firem, kde se v každém popisku dozvíte, že každá firma je ta nejlepší a nabízí nejkvalitnější služby. To rozhodně není ideální.

Pokud se přesto rozhodnete, že chcete zobrazovat meta elementy Description namísto "textu před a za", dbejte na jejich důkladnou přípravu. Musí uživatele zaujmout a dát mu jasný obraz toho, co na dané stránce najde. Každá stránka musí obsahovat jiný popis, charakteristický právě pro ni. Uživateli se nemůže stát nic horšího, než když klikne na odkaz "více stránek z vašeho webu" a u každé stránky se mu zobrazí stejný popis.

I zde ale existují případy, kde bych použití Description nedoporučoval. U odborných textů by bylo velmi těžké napsat dobrý popis. Pokud budu hledat odborný výraz, který se na stránce vyskytuje jenom dvakrát a v popisu o něm není ani zmínka, jak zjistím, že daný odkaz obsahuje to, co hledám? Obecně jsem spíše zastáncem "textu před a za", i když Description může mít při správném použití svůj efekt, chce to ale hodně práce a testování účinku, nejlépe na typických uživatelích.

Google ale ještě nosnippet nepodporuje úplně. I při jeho uvedení někdy vrátí "text před a za". S noarchive problémy nejsou a Google stránku z archivu opravdu odstraní.

Nadpisy

Pro všechny nadpisy důkladně používejte elementy h1 až h3. A zapomeňte na oblíbený zápis <div class="nadpis">, ten vyhledávači nic neřekne, zato při použití h1 se vyhledávač dozví, že text je nadpis stránky, a dá mu větší váhu.

Popisy u obrázků

Další věcí, na kterou klade Google váhu, jsou popisy u obrázků (atribut alt). Proto u každého obrázku používejte popisek, konec konců, je to i v normách W3C. Doporučuji používat klíčová slova, pro která chcete svoji stránku optimalizovat.

Zvýrazněný text

Pokud chcete nějakou část textu zvýraznit, použijte k tomu sémantické elementy strong a em.

Obsah

Definice dobrého obsahu bohužel neexistuje, přesto je tím nejdůležitějším na každé stránce. Obsah pište pro uživatele a nesnažte se jej zběsile optimalizovat pro vyhledávače. Pamatujte si, že důvod, proč na vás někdo odkáže, je zajímavý a kvalitní obsah.

Podvádění

Jakákoli forma podvádění je špatná, neetická a výsledný efekt je přesně opačný. Vyvarujte se tedy generování zvláštní verze stránek pro vyhledávače, "skrytého" textu (černý na černém pozadí), uvádění neplatných údajů v meta elementech a dalších...

Zlaté pravidlo

Doufám, že jsem vám aspoň trochu poradil se správnou tvorbou stránek, ale pokud i přesto budete mít s něčím problém, řiďte se heslem Marka Prokopa: "Co je dobré pro uživatele, je dobré i pro vyhledávače!"

Weida, Petr (12. 8. 2003)

http://www.pcsvet.cz/art/article.php?id=5431&r=21

Vyhledávače WWW stránekpočet názorů: 1 poslední: 04.01.2005 04:25:00 číst názory přidat názor vytisknoutInternet je bezesporu "bezedná" studnice všech možných informací. A právě to slovíčko "bezedná" může být někdy velkým problémem. Chcete zefektivnit své dotazy na vyhledávání nebo jen poznat, jak vlastně vyhledávače na internetu pracují? Potom čtěte tento článek.

Nejprve je nutné se naučit rozlišovat mezi různými typy internetových vyhledávačů. Existují totiž v podstatě dva nejdůležitější typy - katalogy WWW stránek a fultextové vyhledávače.

Katalogy webových stránek

Katalogy webových stránek jsou například Seznam.cz (www.seznam.cz), Atlas.cz (www.atlas.cz) nebo Centrum.cz (www.centrum.cz).Pracují asi takto: po zadání hledaného slova prohledají svoji databázi (katalog) a nakonec vám zobrazí výsledek vyhledávání v podobě ručně psaných a editovatelných poznámek. Také je možné přímo procházet katalogem a vybírat z nabízených stránek.Aby daný vyhledávač znal danou stránku, je nutné aby ji do jeho katalogu někdo předtím zaregistroval. To většinou probíhá vyplněním formuláře na stránkách katalogového vyhledávače. Vaše informace zkontroluje nějaký člověk, který má toto na starosti, také zkontroluje zda neodporují podmínkám pro zaregistrování a pokud shledá, že je vše v pořádku zapíše vámi udané informace do databáze.

http://www.centrum.cz/

http://www.atlas.cz/


http://www.pcsvet.cz/art/article_print.php?id=5431

http://www.pcsvet.cz/forum/forum-add.php?art=5431

http://www.pcsvet.cz/forum/forum.php?art=5431

http://www.pcsvet.cz/art/article.php?id=5431&r=21

http://interval.cz/autor.asp?author=206

Pro doplnění musím uvést, že výše uvedené katalogy dokážou vyhledávat také fulltextově - nejprve vypíší informace z katalogizovaných stránek a následně nalezené stránky z fulltextu. Někdy mohou vyhledávače využívat služeb třetí strany - například Seznam.cz nemá vlastní fulltextový vyhledávač a využívá služeb serveru Google.com (viz dále). Tyto aplikace mají jednu obrovskou výhodu - výsledek jejich vyhledání je prezentován v mnohem přehlednější formě pro čtenáře.

Fulltextové vyhledávače

Druhým typem internetových vyhledávačů jsou takzvané fulltextové vyhledávače. Ty pracují poněkud složitěji. Zadává se do nich pouze URL internetových stránek. Tyto vyhledávače mají svůj program, který prochází stránky z vlastní databáze a pokud obsahují odkaz na jiné webové servery, přidá je do své databáze také. Zároveň ohodnocuje jejich "důležitost" tzv. Page Rank a to podle počtu odkazů, které na ony stránky vedou.Výsledky vyhledávání obsahují, narozdíl od katalogů, pouze citace z webových stránek a jsou seřazeny podle algoritmu, který zohledňuje až 100 různých parametrů.

Pro fulltexty zase hovoří větší množství prohledávaných WWW stránek, mnohdy přesnější výsledky vyhledávání a teoreticky i nižší datová náročnost při zobrazování výsledků. Čistě fultextovými vyhledávači jsou například Morfeo (morfeo.centrum.cz), Jyxo (www.jyxo.cz), Altavista (www.altavista.com) nebo dnes snad nejoblíbenější Google (www.google.com).Google dnes zahrnuje mnoho různých služeb - dokáže například i vyhledat stránky, které obsahují odkaz na jiné webové stránky, dokáže najít informace o telefonních číslech a ulicích v USA, zjistí, jaké je kde počasí a ještě mnoho dalších více či méně praktických služeb. Chcete-li se o jeho funkcích dozvědět více,

nalistujte server Google Blog na této adrese.Pro více informací nejen o internetových vyhledávačích, ale i o tom, jakým způsobem lze dané stránky optimalizovat pro fulltextové stroje,

jak otestovat jsou-li vaše stránky "vidět" z internetu nebo jak vylepšit pozici vašich stránek při vyhledávání naleznete na WWW serveru 'Vyhledávače - registrace a optimalizace stránek' na adrese http://www.registrace-vyhledavace.info/

Dosť bolo teórie aneb Jak vyhledávat?

Pokud chcete vyhledávat nějaké specifické slovo, je nutné jej co nejvýznačněji specifikovat. Pokud například hledáme nějaký recept na bábovku, je třeba si uvědomit, že slovo "recept" je mnohoznačné - existuje lékařský recept a kuchařský recept. Stejně jsou na tom i některá cizí slova - mnoho anglických slovo má více významů. Proto pokud do vyhledávače zadáme jen, v našem případě, slovo recept, nalezneme stránky, jak kuchařské tak i lékařské. Proto je v tomto případě výhodnější zadat "kuchařské recepty", potom ve výsledku dostaneme stránky, které více odpovídají našemu požadavku. Navíc pokud vyhledáváme některé české slovo, které obsahuje diakritiku (háčky a čárky), je třeba zadat toto slovo i s těmito znaménky. Většinou to ale není nutné, protože mnoho vyspělých moderních vyhledávačů (např. jyxo.cz) dokáží vyhledávaná slova tzv. ohébat. V praxi potom zadáte do takovýchto vyhledávačů třeba slovíčko "přání" a on vám vyhledá stránky obsahující slovo "přání" ale i "přáním", "přáními" nebo "přáních".Dále je zbytečné zadávat slovní druhy jako zájmena, slovesa, částice, spojky, předložky atd... Jednak tyto slova obsahují skoro všechny stránky a navíc je i některé vyhledávače ignorují. Pokud ale přeci jen chceme takovéto slovo do vyhledávání zařadit, můžeme tak učinit přidáním znaménka + (plus) před hledané slovo.

Vylepšení vyhledávání

Mnoho vyspělých vyhledávačů současnosti (příkladem může být například Google) podporují i práce s různými znaménky a klíčovými slovy, které ještě více zmenšují okruh vyhledávaných stránek a zpřesňují vyhledávání.

http://www.googlem.com/

http://www.jyxo.cz/

http://www.registrace-vyhledavace.info/

http://blog.lide.cz/frankgoogleboy/2003/12/30/10


http://www.altavista.com/

http://www.altavista.com/

http://www.jyxo.cz/

http://morfeo.centrum.cz/



Těmito klíčovými slovy mohou být:

+ (plus) - pomocí něj lze do vyhledávání zahrnout i běžně nevyhledávané výrazy např. spojky (viz výše).

- (minus) - vyhledá stránky, které obsahují slova před znaménkem, ale do výsledku nezahrne ty webové servery, které obsahují slovíčka za "minusem". Například ubytování -Praha vyhledá WWW stránky obsahující slovíčko ubytování, ale ty obsahující navíc slovo Praha nebudou do seznamu výsledků zahrnuty.

" " (uvozovky) - bude vyhledávat slova v přesně daném slovním termínu a bez skloňování. Pokud tedy budeme vyhledávat např. "magazín o počítačích" pak již do výsledků nebudou zahrnuty slovní spojení "magazín počítač" apod. Navíc je zadání pomocí uvozovek další možností, jak do vyhledávání zahrnout i jinak ignorované slovní druhy - viz výše.

AND (a), OR (nebo)- tyto logické operátory dále rozšiřují možnosti vyhledávání. Například zadáme-li ubytování Praha or Litomyšl vyhledávač vyhledá stránky obsahují buď ubytování v Praze nebo ubytování v Litomyšli. Problémem je, že tato slova mohou být roztroušena po celé nalezené stránce. Proto je výhodnější používat uvozovky " " (viz výše). Při použití uvozovek totiž vyhledávač bude hledat stránky, které obsahují výrazy ubytování v Praze nebo ubytování v Litomyšli, ale v přesně daném pořadí.

NOT (ne) - pracuje stejně jako znaménko - (minus). Tedy při zadání "ubytování Praha or Litomyšl not Olomouc" vyhledá stránky obsahující slovní spojení ubytování v Praze či ubytování v Litomyšli, ale přeskočí ty, které navíc obsahují ubytování v Olomouci.

Proximitní operátory

Dále je možné ještě více zpřesňovat seznam vyhledávaných stránek zadání rozestupů mezi jednotlivými slovy.K tomu se používají operátory NEAR/x (x je maximální vzdálenost mezi dvěma slovy), FAR/x (x je minimální vzdálenost mezi dvěma slovy) či ADJ/x (x určuje rozestup mezi dvěma slovy, ve výsledku nezáleží na pořadí slov).Např. kočka NEAR/5 pes - vyhledá stránky, na kterých slovíčko kočka předchází slovu pes a to do maximální vzdálenosti 5 slov.

Vyhledávací zázrak jménem Google

Pomocí některých vyhledávačů, které podporují zadávání tzv. meta slov, můžete dále zužovat vyhledávání. Abych Vás navnadil, zde je pár ukázek z vyhledávače Google:

internet site:www.pcsvet.czVyhledá všechny stránky, které obsahují slovíčko internet, vyhledávání však omezí pouze na doménu www.pcsvet.cz. Všímavé čtenáře jistě napadlo, že pomocí této vlastnosti by se dalo využít Google, při použití některého skriptovacího jazyku, k vyhledávání na vlastních webových stránkách...

hardware filetype:txtProhledá internet a vypíše všechny soubory, které obsahují slovo hardware a mají příponu .txt.

link:www.pcsvet.czNalezne na internetu všechny stránky, které obsahují odkaz na doménu www.pcsvet.cz.

funes language:frNalezne všechny weby, psané ve francouzštině a obsahující slovo funes.

Pozn: Funes je jméno výborného francouzského komika.

Pro více informací a tipů pro vyhledávač Google.com nalistujte webovou stránku s tipy přímo od Google, odkaz na ni naleznete třeba zde. Pozn: Při používání různých operátorů je nutné pamatovat na skutečnost, že ne všechny vyhledávací stroje je musí nutně podporovat. Například proximitní operátory fungují bezchybně na Altavistě, ale Google s nimi již ale má problémy.

Dále je nutné mít na mysli, že většinou je nutné tyto operátory zadávat VELKÝMI PÍSMENY - jinak je pravděpodobně vyhledávač bude brát jako klasická slova nebo je bude dokonce ignorovat.


http://www.atlavista.com/

http://www.google.com/intl/cs/help/refinesearch.html


http://www.earchiv.cz//l329/l6.php3PozorováníZákladní principy vyhledávání

• Čím větší řád (organizovanost, systém) se vnese do evidence dostupných informací, tím menší bude její záběr– čím dokonalejší je „posouzení“ určité informace, tím více dá práce a zabere času

• podrobnější posouzení obsahu dokáže jen člověk – je to pomalé a drahé

• velké objemy dokáží zvládnout pouze automatizované techniky– nedokáží posoudit „o čem to je“, ani „jak je to dobré“, ….

• Princip vyhledávací služby– Určitý subjekt (vyhledávací služba) systematicky shromažďuje informace o tom, „co je kde k dispozici“– uživatelé, kteří něco hledají, se pak obrací na vyhledávací službu

• nikoli na místo, kde tuší že by hledaný objekt mohl existovat– vyhledávací služba poskytne „ukazatel“ na výskyt hledaného objektu

• ve smyslu: hledaný soubor se nachází na serveru A v adresáři B

Klasifikace vyhledávacích služeb

• Univerzální vs. specializované– specializované: uzpůsobené například vyhledávání souborů, vyhledávání lidí, plnotextové vyhledávání v textových dokumentech …..– univerzální: vyhledávají cokoli (v rámci WWW stránek, menu služby Gopher)

• samostatné vs. nadstavbové– samostatné: mají vlastní mechanismus fungování, vlastní servery, vlastní klienty, …

• i vlastní styl práce– nadstavbové: jsou vybudovány jako „nadstavba“ nad již existující platformou, typicky nad WWW

• příklady (samostatných a specializovaných) vyhledávacích služeb:– Archie, Nosey Parker:

• specializované služby, vyhledávají soubory– WAIS:

• specializovaná služba, plnotextové vyhledávání v dokumentech– NetFind, WHOIS, X.500:

• specializované služby, vyhledávání lidí (jejich adres)– Veronica:

• univerzální vyhledávací služba, nadstavba nad službou Gopher

Současný trend

• Samostatné služby jsou na ústupu– tj. ty, které si vytváří vlastní „platformu“– hlavně proto, že vyžadují specifické klientské programy a specifický styl práce

• uživatelé se musí učit novým znalostem a dovednostem

• musí jim být instalovány a udržovány specifické klientské programy

• převažují „nadstavbové služby“– „posazené“ na platformu World Wide Web– důvodem je jednoduchost, univerzálnost, ….

• Pro již existující vyhledávací služby „samostatného“ typu se zřizují brány z/do WWW– cílem je umožnit přístup k těmto službám i z prostředí WWW

• příklad: vyhledávání souborů prostřednictvím služby Archie je dostupné i z WWW (brány ArchiePlex)

• novější služby vznikají již rovnou jako nadstavbové, nad WWW– např. Nosey Parker (ani nemá vlastního klienta)– např. Four11, BigFoot, WhoWhere (vyhledávání lidí)Univerzální vyhledávací službySeznamy zdrojů vs. katalogy

• Seznamy zdrojů– jsou téměř vždy úzce zaměřené na určitou konkrétní oblast– dokáží „pojmout“ relativně malou část toho, co je na Internetu dostupné– zahrnují velký objem lidské práce– „stojí a padají“ se schopnostmi svého autora Fulltextové vyhledávače (vyhledávací služby databázového typu)

• Snaží se „mapovat“ co možná nejvíce WWW stránek– dnes až stovky milionů

• nemohou si dovolit žádnou „ruční práci“– žádné ruční zatřiďování získaných odkazů– žádná předmětová hierarchie– musí ponechat vše „na jedné hromadě“

• v jedné velké databázi

Další komplikace:

• ve světě World Wide Webu neexistuje žádná „jedna jediná, ta pravá .....“ vyhledávací služba– …... která by dokázala (musela) vždy všechno najít

• protože neexistuje ani žádná univerzální vyhledávací strategie– existuje mnoho vyhledávacích služeb, ale každá je v něčem jiná ......

• Platí to pro „katalogy“ i „fulltexty“

• důležité ponaučení:– pokud jedna vyhledávací služba nenajde to co hledáte, ještě to neznamená že to neexistuje!!

• znamená to pouze, že o tom neví daná služba– má smysl zkoušet další vyhledávací služby

• ale ani když jich vyzkoušíte sebevíce, nemáte jistotu že to neexistuje !!!Vhodnost pro uživatele

• vyhledávače (vyhledávací služby „fulltextového“ typu, jako např. Alta Vista, Google, ....) jsou vhodné pro takové situace, kdy uživatel:– dosti přesně ví, co chce najít– dokáže to (dostatečně) přesně popsat

• sestavit vyhledávací dotaz – potřebuje prohledat co nejširší okruh zdrojů

• obecně:– čím přesnější a konkrétnější mám představu, tím lépe mi tento způsob vyhledávání vyhoví

• jinak je tomu v případě, kdy:– uživatel nemá příliš přesnou představu

• např. ví jen to, že hledaná informace spadá do určité oblasti lidského poznání– uživatel ani tak nehledá něco konkrétního, spíše chce objevovat nové věci, které by jej mohly zaujmout

• chce se „toulat“, ale vhodně cíleným způsobem, se zaměřením na určitou problematiku

• pak jsou výhodnější služby typu katalogů a seznamů zdrojůTrendy ve vyhledáváníPortály

• typické portály dnes nabízí:– katalog– fulltextový vyhledávač– freemail

• el. poštu zdarma– freeweb

• prostor pro WWW stránky zdarma– diskuse

• chat, el. konference– zpravodajství

• často také:– specializované vyhledávání

• např. v obchodech na Internetu

• vyhledávání osob

nejznámější české portály:

• Seznam – http://www.seznam.cz

• Atlas– http://www.atlas.cz

• Centrum– http://www.centrum.cz

• Quick– http://www.quick.cz

• RedBox– http://www.redbox.cz

Příklad - CentrumKladení dotazů fulltextovým vyhledávačům

• vyhledávací dotaz lze většinou zadat pomocí více klíčových slov– klíčové slovo neobsahuje mezeru

• !! pokud se použije více klíčových slov, je nutné vyhledávací službě určit, jaký je vztah mezi jednotlivými slovy !!!

• možnosti jsou:– všechna klíčová slova,– alespoň jedno klíčové slovo– „přesně tak jak je napsáno“– klíčová slova „blízko sebe“

• pozorování: čím neurčitější je dotaz, tím neurčitější („větší“) je odpověď

– tím více stránek se najde, tím těžší je se v nich orientovat, a tím menší je užitek

• obecně: – najde-li se příliš mnoho odpovědí (shod), je nutné dotaz upřesnit (zúžit)– najde-li se příliš málo odpovědí, je nutné dotaz rozšířit (učinit obecnějším)Vyhledávání „jako fráze“ (phrase search)

• skupina klíčových slov se hledá „přesně tak, jak je napsána“ (jako tzv. fráze)– fráze se obvykle dává do uvozovek– mezery (a další interpunkční znaménka) jsou významné

• příklad:– „Jan Novak“, „archiv clanku“

• tímto způsobem lze hledat i slova, která vyhledávací služba jinak ignoruje (jako příliš častá), např.:– „to be or not to be“Booleovské vyhledávání

• umožňuje specifikovat závislost (vztah) mezi klíčovými slovy prostřednictvím Booleovských (logických) operátorů:– x AND y (x a y se musí vyskytovat současně)

• ale není předepsáno v jakém pořadí ani jak „daleko“ od sebe !!!!– x OR y (alespoň x, nebo alespoň y, nebo oba)– NOT x (x se nemá vyskytovat)– x NEAR y (x „blízko“ y)

• záleží na konkrétní službě, např. do vzdálenosti 10 slov Příklady:

• Josef AND Jan– najde se

• Jan OR Jiri– najde se

• „Jan Novak“– najde se

• tohoto NEAR „Jan Novak“– najde se

• „Jan Novacek“– nenajde se

• texty OR text OR textum– nenajde se

• panove AND (Jan OR Josef)– najde seDotazy v „přirozené řeči“

• některé vyhledávací služby nenutí uživatele používat Booleovské operátory– říká se tomu: možnost zadávat dotazy v přirozené řeči– efekt: vyhledávací služba si mezi jednotlivá klíčová slova sama doplní operátor AND

• někdy tzv. „měkký AND“, ne moc imperativní

• někdy je možné nahradit Booleovské operátory pomocí „+“ a „-“– např. +Jan + Novak (Jan AND Novak)

• znak + nebo - se obvykle musí uvádět u každého klíčového slova, jinak je to chápáno jako OR Simple vs. Advanced Search

• jednoduché (simple) vyhledávání– určeno pro nekomplikované dotazy a rychlé použití– typicky jen pro dotazy „v přirozené řeči“

• nemusí dovolovat použití AND, OR atd.

• pokročilé (advanced) vyhledávání– umožňuje využít všech „fines“ při zadávání dotazů– vyžaduje znalost konkrétního „dotazovacího jazyka“Zástupné znaky (wildcards)

• jedno klíčové slovo může „postihnout“ více různých slovních tvarů, díky tzv. zástupným znakům (wildcards)– podobně jako při zadávání souborů v MS DOSu či MS Windows

• obvyklá konvence:– znak „*“ (hvězdička) zastupuje libovolnou posloupnost znaků– znak „?“ (otazník) zastupuje jeden (libovolný) znak

• možnosti umisťování zástupných znaků závisí na konkrétní vyhledávací službě!!!– některá je nepřipouští vůbec– některá je připouští pouze na konci klíčových slov– některá je připouští i uprostřed slov Příklady (použití zástupných znaků)

• Nova*– Novak– Novacek– Novakum– Novacich– Nova

• „pan Nov*“

• Nov*y– Novotny– Novy– novely– novoty– novinky– noviny– ......

Doporučení

Vyhledávání a diakritika

• neexistuje obecný návod– velmi záleží na způsobu řešení vyhledávacího stroje (mechanismu)

• pro zahraniční vyhledávací služby: – nejlépe je zadávat bez diakritiky

• pro tuzemské vyhledávací služby:– je to individuální, většinou také bez diakritiky

• pokud použitá technologie není původní česká, většinou nepodporuje diakritiku

• konkrétní způsob kladení dotazů může být u každého vyhledávače jiný!!– je třeba se s ním seznámit

• pomocí nápovědy, tipů

• připomenutí:– pokud jeden vyhledávač něco nenajde, neznamená to že hledaný objekt neexistuje !!!

• pouze o něm daný vyhledávač neví, nebo jste se špatně zeptali– má smysl hledat dále !!!Upřesňování dotazů - možnosti

• v praxi se u fulltextů stává spíše to, že nalezených stránek je příliš mnoho– aje nutné výběr zúžit, upřesněním dotazu

• možnosti zúžení:– přidáváním dalších klíčových slov (ve vazbě AND či NEAR k ostatním), např.:

• „Clinton“ - moc odpovědí

• „Clinton“ AND „Czech Republic“ - únosně

• časovým omezením– některé vyhledávací služby umožňují zadat maximální „stáří“ hledaného zdroje

• pozor, co je vlastně „stáří“ - kdy si toho služba poprvé všimla?

• „geografickým“ omezením– např. na doménu .cz

• jazykovým omezením– např. jen na stránky v češtině

Vyhledávání lidí a jejich adres

v Internetu neexistuje nic jako „centrální“ telefonní seznam

• už i proto, že by ho neměl kdo sestavit

• existují pouze dílčí „seznamy“ (adresáře), které většinou nejsou mezi sebou koordinovány– jistá centrální evidence je pouze u lidí, kteří se starají o provoz Internetu (správci sítí, domén, ...)

• problém systematického přístupu:– uživatelů je obrovské množství, databáze budou vycházet velmi velké

• „oficiální“ pokus o koncepční řešení:– standard X.500 (ze světa ISO/OSI)

• je to velké, těžkopádné, náročné, drahé

• přišlo to pozdě, když už každý měl nějaké vlastní nouzové řešení vybudované

• problém všech řešení:– jak sbírat informace o existujících uživatelích? Jak je aktualizovat?Fungující řešení: nástěnky

• pracují na principu veřejné nástěnky:– uživatelé si sami registrují své adresy (a další údaje) u provozovatele databáze

• provozovatel se někdy snaží přebírat data hromadně z již existujících zdrojů, ale ty nejsou vždy aktuální a bezproblémové– zodpovědnost za data je na jejich vlastníkovi

• ten se stará o aktualizace

• řeší se tím i ochrana osobních údajů– provozovatel nástěnky se stará jen o technické a provozní aspekty

• v ČR existují 2 řešení na principu „nástěnky“– adresář Atlasu (http://lide.atlas.cz)– adresář Lidé (http://lide.seznam.cz)LDAP (Lighweight Directory Access Protocol)

• jde o odlehčenou (lightweight) verzi X.500– konkrétně o protokol, kterým může aplikace komunikovat s "nástěnkou"

• hledat na nástěnce a stahovat z ní data– existence tohoto protokolu umožňuje integrovat podporu adresářů do aplikacíPříklad využití LDAPVyhledávání telefonních čísel

• v zahraničí – typická součást adresářových služeb

• u nás:– problém s dostupností dat– zatím nabízí jen Český Telecom (Internet OnLine, v rámci služby QUICK))

• http://phone.quick.czVyhledávací rozhraní

• různé vyhledávací služby mohou dávat různé výsledky

• není rozumné spokojit se jen s výsledky jedné jediné služby

má smysl ptát se více vyhledávacích služeb,

a pak vhodně „sloučit“ jejich výsledky

• otázka: jak to udělat co možná nejinteligentněji?– vždy je možné pamatovat si odkazy na jednotlivé služby, a každou z nich oslovit individuálně

• ale je to zbytečně pracné

• Možné řešení: vyhledávací rozhraní– jde ve své podstatě o formuláře, které umožňují klást dotazy různým vyhledávacím službám z jednoho místa

• jde o druh meta-vyhledávací služby

• odpověď vrací vždy přímo oslovená služba– hlavní efekt je v pohodlí uživatele

• nemusí si pamatovat odkazy na jednotlivé vyhledávací služby

• nemusí mezi nimi přecházetPříklad: vyhledávací služba Alenka

• nabízí:– možnost položit dotazu různým vyhledávacím službám, členěným podle kategorií– odpověď přijde přímo od oslovené vyhledávací službyMeta-vyhledávací služby

• Idea:– na Internetu bude uzel, který bude přijímat jednotlivé dotazy– každý dotaz pak sám „rozhodí“ mezi konkrétní vyhledávací služby

• podle vyhledávacího plánu, který si sám sestaví– počká si na odpovědi, a sestaví je do jednoho celku

• např. odstraní duplicitní odpovědi– výsledek (odpověď) odešle původnímu tazateli

příklady:

• DogPile– http://www.dogpile.com

• MetaSearch– http://www.metasearch.com

• MetaFind– http:/www.metafind.com

• SavvySearch– http://www.savvysearch.com

• …..

Bednář, Josef, 1975-Fuzzy vyhledávání =V Brně : Vysoké učení technické, Fakulta strojního inženýrství, Ústav matematiky, 2004 -- 30 s. : ISBN: 80-214-2712-4 (brož.)

Lapáček, Jiří, 1956-Používáme Internet s portálem SEZNAM.CZ : -- Vyd. 1.Brno : Computer Press, 2004 -- 127 s. : ISBN: 80-251-0453-2 (brož.) :

Internet nejen pro historiky : -- 1. vyd.Praha : Grada, 2003 -- 112 s. : ISBN: 80-247-0338-6 (brož.)

Hlavenka, Jiří, 1964-Vyhledávání na Internetu / -- Vyd. 1.Brno : Computer Press, 2003 -- 79 s. : ISBN: 80-7226-977-1 (brož.)

Hlavenka, Jiří, 1964-Mistrovství ve vyhledávání na Internetu / -- Vyd. 1.Praha : Computer Press, 2002 -- xi, 195 s. : ISBN: 80-7226-759-0

Bráza, Jiří

Internet.cz - jak hledat a najít / -- 2. aktualiz. vyd.Praha : Grada, 1999 -- 133 s. : ISBN: 80-7169-701-X

FSS Bláha, Jiří.: Internetové vyhledávače /[rukopis]vypracoval Jiří Bláha. 2004. 30 l.

Calishain, Tara.: 100 způsobů jak vyzrát na Google /Tara Calishain, Rael Dornfest. Gliwice : Helion, 2004. 327 s.

Date post:	07-Jan-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

lcerna/vyhledavani.doc · Web viewSlovo "meta" pochází tuším z řečtiny a znamená "něco, co...

Documents