lcerna/vyhledavace1.doc · Web viewNejjednodušší, co můžeme posuzovat, je počet odkazů,...

http://www.lupa.cz/clanek.php3?show=1238

Nové trendy ve vyhledáváníV dávných dobách Internetu fulltextové vyhledavače neexistovaly - uživatelé se pohybovali po stránkách svých výzkumných ústavů, případně používali bookmarky na domácích stránkách ostatních. Když se objevili roboti, kteří Internet pročesávali a umožňovali vyhledat stránky obsahující zadaná slova, byl to velký přelom.

Nyní má ale Internet několik miliard stránek a dříve používané algoritmy vyhledavačů již nefungují. Stránek, které splňují nějaké kritérium (např. obsahují slovo "lupa"), bývají tisíce nebo milióny - uživateli jich je ale vráceno obvykle jen deset. Vyhledávač musí vybrat ty, které uživateli přinesou největší užitek (v našem příkladu by to pro českého uživatele mohla být třeba adresa http://www.lupa.cz/). Velkým tématem jak současných hledačů tak i tohoto článku je relevance výsledků a její zvyšování. Dnes se podíváme na algoritmy, které používají analýzu hyperlinků.

Síla v odkazech

Internet, ač velmi chaotický (nebo demokratický, volný, anarchistický, svobodný), má také svůj řád a strukturu. Ta je daná propojením jednotlivých stránek. Kromě vlastního těla stránky má vyhledavač tedy k dispozici ještě informaci, která leží MIMO tuto stránku. Ta bývá často dokonce důležitější než obsah posuzované stránky, a umožňuje přesnější zhodnocení jejího tématu, typu či důležitosti.

Všechny moderní vyhledavače v menší či větší míře informaci z hyperlinků posuzují. Toto tvrzení se bohužel netýká veřejně přístupných hledačů českých, z pokud vím, neumí to ani jediný. Nyní se podíváme, jaké konkrétní informace můžeme z hyperlinků vyčíst:

Známost stránky

Nejjednodušší, co můžeme posuzovat, je počet odkazů, které na danou stránku ukazují. Dá se pak předpokládat, že více linkovaná stránka je známější. Tato úvaha má ale několik chyb - nepochytí rozdíl mezi tím, jestli na stránku ukazuje milión jednotlivých uživatelů nebo někde jediný robot vygeneroval milión umělých stránek, které mají stránku podpořit svými hyperlinky. Navíc také není totéž, že vás z hlavní stránky linkuje Yahoo nebo vás zmiňuje váš kamarád Honza.

Před dvěma lety přišel s dobrým řešením tehdy neznámý Google. Zakládá si na své veličině pojmenované PageRank (jak podle svého autora Larryho Pagee, tak přeložitelné jako "hodnost stránky"). Google interpretuje hyperlink jako hlas pro cílovou stránku. Tyto hlasy ale nemají stejnou váhu - stránka, která má sama vyšší PageRank, má pak větší váhu při hodnocení ostatních. S určitým zjednodušením se dá říct, že PageRank nějaké stránky je součet PageRanků stránek, které na ni odkazují.

Představte si, že "náhodný surfer" sedí před svým počítačem, prohlíží si stránky na Internetu a náhodně kliká na odkazy. Čas od času ho to přestane bavit a přeskočí na jinou, zcela náhodnou stránku. Z definice PageRanku vyplývá, že je to pravděpodobnost, že se tento náhodný surfer bude v kterémkoliv okamžiku nacházet na dané stránce. Google tak nejen aproximuje známost nějaké stránky, ale také její návštěvnost.

Tento algoritmus dobře řeší dříve zmíněné problémy. Uměle vygenerovaným stránkám nepřizná větší váhu, než jakou si zaslouží (tedy obvykle žádnou, protože na ně nikdo nelinkuje), a odkazy z důležitých a dobře spravovaných zdrojů jako je např. Yahoo nebo DMOZ dobře ocení. V prvním prototypu Google nedělal nic jiného, než že vzal stránky, které mají hledané slovo v titulku a seřadil stránky podle PageRanku. I samotní autoři byli překvapeni, že takto jednoduchý postup funguje obvykle lépe než konkurenční Altavista.

Distribuce textu odkazu

Ve světě platí jednoduchá závislost: Lepší pozice ve vyhledavači znamená více návštěvníků, to pak znamená více peněz. Každého webmastera pak dříve či později napadne upravit svou stránku, aby se používaným vyhledavačům co nejvíc líbila - a někteří jdou tak daleko, že svou stránku prošpikují desítkami opakovaných (a často irelevantních) slov a tím hloupější vyhledávače úplně popletou. Co pak zmůže vyhledávač, když někteří uživatelé na svých stránkách úmyslně matou? Odpověď jsme již jednou zmínili - musí použít informaci, kterou webmaster stránky nemá pod kontrolou. Obecně tomu můžeme říkat externí validace.

Ve své nejjednodušší formě to může znamenat vzít texty odkazů (tedy ta podtržená slova) a připsat je cílovým stránkám. Při vhodné statistické reprezentaci (která zohledňuje různorodost odkazujících serverů) pak máme informaci, kterou v podstatě nelze nijak zkompromitovat. Pokud např. 60% odkazů, které mají ve svém textu slovo Yahoo, ukazují na www.yahoo.com, můžeme z toho dobře usoudit na relevanci této stránky k dotazu "yahoo". Složitější algoritmy zohledňují i texty kolem odkazu (což mohou být třeba popisky v katalozích) nebo celou stránku.

Tuto techniku používá opět Google (původně jen vlastní texty odkazů, nyní údajně i jejich okolí), dále Excite (celý obsah domény, tzv. theming) a také Altavista (přinejmenším ve svých výzkumech, na výsledcích jejího vyhledávání to není nijak znát).


Seznam vykročil k dospělostiPoslední dobou se všechno točí kolem inovace vyhledávání na Seznamu. Starý Jyxo nahradil nový vyhledávač z dílny samotného Seznamu, a vyhledává se již ve fulltextu, nikoli v katalogu. To je všechno moc hezké. Databáze odkazů je zatím docela malá, ale to se snad brzy změní. Ale nerelevantní placené odkazy na Seznamu zůstaly postaru.

Minulý týden změnil Seznam už poněkolikáté své vyhledávání. Na první pohled nic pozoruhodného. Jenže tentokrát nešlo o drobný kosmetický zákrok, kterými nás české portálové hvězdy rozveselují několikrát do roka. Tentokrát šlo o zásadní změnu koncepce. Tak zásadní, že ji někteří chtěli oslavit vínem a jiné inspirovala k vizionářským prohlášením.

Ani já jsem se neubránil emocím a v titulku tohoto článku poněkud pateticky prohlašuji, že Seznam vykročil k dospělosti. Nyní bych to asi měl vysvětlit. Začnu tím, proč "k dospělosti", a proč jen "vykročil", to si nechám na konec.

Nejprve je ovšem třeba připomenout, že se s vyhledáváním Seznamu neudála pouze jedna, nýbrž hned dvě změny. První, méně významná, spočívala ve výměně fulltextové technologie. Vyhledávač Jyxo, který sloužil Seznamu přibližně rok, byl nahrazen zbrusu novým vyhledávacím strojem z dílny samotného Seznamu. A teď ta revoluční: uživatel, který bez

http://www.jyxo.cz/

http://novinky.robertnemec.com/seznam-zastavil-google/

http://seo.nawebu.cz/200503/0303.html


jakéhokoli nastavování napíše dotaz a zmáčkne "Hledej", dostane výsledky fulltextového a nikoli katalogového vyhledávání jako dříve.

Vtírá se otázka, proč se obě změny odehrály současně, ale i ta není tak důležitá. Teď již vám musím objasnit, co myslím tou "dospělostí". Vysvětlení mám hned dvě:

1. Cesta od katalogového k fulltextovému vyhledávání představuje přirozený vývoj internetového vyhledávače. Snad každý začal katalogem, pak přidal fulltext pro "fajnšmekry" (rozuměj: ukrytý za nějakým přepínačem) a nakonec jejich role prohodil. Je to přirozený vývoj filosofický i technologický, i když to druhé je asi důležitější. Fulltext je nenasytný žrout výkonu a většině lidí se ho nepovede naprogramovat tak, aby alespoň trochu fungoval.

2. Cestou od katalogu k fulltextu se však neubírají jen vyhledávače. Kráčejí po ní i uživatelé. Internet je nejprve zaskočí zdrcující lavinou informací. Aby se v nich vyznali, potřebují je úhledně zaškatulkovat a především podstatně zredukovat. Ideální řešení: katalog. Po čase ale uživatelé Internet ovládnou a už jim nestačí, že najdou pár stránek o fotoaparátech. Najednou chtějí hledat takové věci jako recenze nejnovějšího modelu určité značky fotoaparátů nebo tříhvězdičkový hotel na zcela konkrétním ostrově chorvatského pobřeží. A na to už katalog nestačí.

Podstatné je, že oba partneři – vyhledávač i jeho uživatelé – musí absolvovat celou evoluci společně a do konečné fulltextové fáze dospět přibližně ve stejnou dobu. Předčasně vyspělý vyhledávač by jeho nedospělí uživatelé pravděpodobně lynčovali a dospělí uživatelé by naopak začali houfně opouštět vyhledávač infantilní.

Jestliže tedy Seznam, jako největší český portál, právě minulý týden učinil onen rozhodující krok a postavil fulltextové vyhledávání před katalog, vyslal nám tím dva velmi důležité signály:

1. Jsem dospělý, už umím fulltext tak dobře, že si na něm nevylámu zuby. A zároveň 2. věřím, že i vy, uživatelé, jste dospělí a snesete celý Internet, nezaškatulkovaný do

rubrik katalogu, svobodný, neokleštěný vůlí a schopnostmi editorů.

Oba tyto signály se mi líbí.

A teď ta horší zpráva.

Ponechám stranou, že má nový vyhledávač Seznamu ještě pár dětských nemocí. Má na ně právo, vždyť je mu teprve týden. Co na tom, že na mnoho dotazů najde čtyřikrát méně českých stránek než Google a na některé dokonce dvěstěkrát méně i přes to, že narozdíl od Googlu ohýbá slova a doplňuje diakritiku. Jistě svou databázi rychle doplní. Co na tom, že mu do výsledků vyhledávání občas proniknou komické nesmysly. I to mu rád odpustím. Jednu věc mu však odpustit nechci: placené odkazy.

Internetový vyhledávač už dávno není jen informační nástroj pro uživatele. Je to i marketingový nástroj pro firmy (a samozřejmě stroj na vydělávání peněz pro sebe sama, ale to přeskočme). Firmy jsou hned po uživatelích druhým partnerem vyhledávačů a jako uživatelé, i ony dospívají. Kdysi jim bylo nějaké vyhledávání ukradené, ještě před tím jim byl ukradený celý Internet. Jenže to už neplatí. Obchodovat na Internetu roku 2005 bez vyhledávačů prakticky nejde.

A bohužel to někdy moc nejde ani s vyhledávači.

Samozřejmě mám na mysli Seznam. Nikdy jsem nepochyboval o tom, že dříve či později přejde od katalogového hledání k fulltexu. Zároveň jsem ale vždy doufal, že současně inovuje i svůj model placených odkazů ve vyhledávání. Nestalo se. V novém Seznamu se nyní spojuje moderní vyhledávač s archaickým reklamním systémem a dohromady jim to pořádně skřípe.

Aby bylo jasnější, v čem je problém, shrnu tři základní atributy moderní reklamy ve vyhledavačích:

1. Musí být relevantní. 2. Musí být relevantní. 3. Musí být relevantní.

Ne, nebojte se, nezaseknul jsem se. Jen parafrázuji Iva Lukačoviče, který skoro stejnými slovy oznamoval nový vyhledávač krátce před jeho spuštěním: "Při vývoji hledání nám jde hlavně v první řadě o relevanci nalezených výsledků, v druhé řadě o relevanci nalezených výsledků, a v neposlední řadě o relevanci nalezených výsledků."

Sice měl na mysli přirozené, tj. neplacené výsledky vyhledávání, jenže na ty placené by se mělo vztahovat totéž. Relevance výsledků vyhledávání totiž přímo určuje spokojenost uživatelů a (ne)spokojenost uživatelů přímo ovlivňuje (ne)úspěch inzerentů. Jinými slovy, vyhledávači nalézajícímu relevantní odkazy (placené i neplacené) uživatelé důvěřují, na odkazy ochotně klikají a jsou nakloněni důvěřovat i tomu, co se ukrývá za proklikem. U vyhledávače s nerelevantními výsledky (byť jen těmi placenými) je tomu naopak.

Pár příkladů pro ilustraci:

Hledáte-li práci v Irsku, najdete tři placené odkazy na weby, ve kterých musíte pracně hledat dál a minimálně v jednom případě stejně nic nenajdete. Něco podobného vás čeká, toužíte-li po zájezdu na Nový Zéland.

Ještě hůř na tom budete, pokud sháníte slovník cizích slov. Placené odkazy na Seznamu vám budou vnucovat všechny možné slovníky, ale ten správný nikoli.

Do třetice lahůdka: při pokusu nalézt levné ubytování v Mariánských lázních vás čeká jen Internet Mall – specializovaná síť elektro obchodů. Asi prodávají také něco levného.

Základní, neplacené výsledky hledání všech těchto dotazů vás naopak nezklamou. Rychle vás dovedou přesně tam, kam potřebujete, a zároveň vás naučí, že to placené nahoře, to, co vám Seznam doporučuje, máte raději ignorovat.

Možná si myslíte, že je v tom Seznam nevinně, že to je chyba inzerentů a že to lépe dělat nejde. Jenže ono to lépe dělat jde a neohrabané inzerenty lze účinně a přitom elegantně vychovávat. Příkladem budiž Google a jeho AdWords, který se od Seznamu liší těmito zásadními vlastnostmi:

1. Placené odkazy lze zobrazovat na velmi konkrétní, mnohoslovné fráze a současně lze určit libovolný počet slov, na která se reklama zobrazit nesmí.

http://search.seznam.cz/?w=levn%E9+ubytov%E1n%ED+mari%E1nsk%E9+l%E1zn%EC&mod=f-p-1-s-c&r=&ie=iso

http://search.seznam.cz/?w=slovn%EDk+ciz%EDch+slov&mod=f-p-1-s-c&r=&ie=iso

http://search.seznam.cz/?w=z%E1jezd+nov%FD+z%E9land&mod=f-p-1-s-c&r=&ie=iso

http://search.seznam.cz/?w=pr%E1ce+v+irsku&mod=f-p-1-s-c&r=&ie=iso

http://blog.lide.cz/ilblog/2005/03/14/62

2. Počet dotazů (klíčových frází), na které se mají placené odkazy jednoho inzerenta zobrazovat, není nijak omezen a není ani zpoplatněn. To umožňuje inzerentům vybrat dostatečné množství skutečně relevantních frází.

3. Omezen či zpoplatněn není ani počet samotných odkazů, tj. textů inzerátů a adres cílových stránek. Inzerenti tak mohou snadno přizpůsobit text odkazu konkrétním dotazům a uživatele směrovat na tu nejrelevantnější stránku svého webu.

4. Inzerenti, kteří výše uvedenými způsoby zvyšují relevanci svých placených odkazů, jsou systémem významně zvýhodňováni. Naopak ti, kteří o relevanci svých odkazů nepečují, propadávají na horší pozice, musí víc platit, nebo se jejich reklama dokonce přestane zcela zobrazovat.

5. Cenová politika nepředstavuje bariéru pro malé inzerenty z velmi úzkých tržních výklenků, ani zbytečně neeskaluje konkurenční boj v nejlukrativnějších segmentech.

Proč to zde píšu? Abych vychválil Google a pohaněl Seznam? Ale kdepak. Seznam je nejvýznamnější český vyhledávač a já mu to přeji. Navíc mi udělal radost svým prvním krokem k dospělosti - přechodem na fulltext. Teď už jen zbývá, aby udělal i druhý krok a inovoval placené odkazy. Pak bude už opravdu dospělý a my všichni s ním.


Ticho, vyhledávače mluví!Přesněji řečeno, mluví zatím jen vyhledávač Speegle. Svět vyhledávacích služeb se opět posunul o příčku výše. Nabízet e-mailové schránky o stovkách megabytů nebo vyhledávání v obrázcích či využití speciálních dotazovacích operátorů už zřejmě nestačí. Jedna skotská firma se rozhodla, že vyhledávače už prostě musí mluvit. A také již mluví.

Co to může znamenat pro budoucnost? Usnadní to přístup k Internetu zrakově postiženým, nebo je to jen marketingový tah?

Speegle byl uveden do testovacího provozu v listopadu minulého roku. Na svět ho přivedla skotská společnost CEC Systems sídlící v Edinburghu. Od samého počátku se jeho tvůrcům jedná o snahu vytvořit něco nového, něco, co způsobí zejména v oblasti samotného přístupu uživatelů k Internetu velký pokrok. Projekt se snaží o přiblížení Internetu přirozenou cestou všem lidem, a to i těm zrakově postiženým.

Jak tedy tento vyhledávač funguje?V podstatě stejně jako všechny ostatní. Do formulářového okénka zadáte dotaz a čekáte na výsledky hledání. Změna ovšem nastane po výpisu výsledků, kdy začne příjemný hlas v anglickém jazyce číst vše, co bylo nalezeno. Neznalého uživatele to mnohdy může velmi překvapit. Společnost CEC Systems zde využila technologii PanaVox. Jedná se o technologii určenou k prezentaci textu na webových stánkách uživateli s pomocí řeči. Vyznačuje se univerzalitou, přístupností a nízkými nároky na hardware i software. Na počítač dnešní doby není prakticky nutné instalovat žádný software ani rozšiřovat hardware. Nutná je pouze zvuková karta a buď sluchátka, nebo reproduktory, v prohlížeči pak instalovaná podpora pro Macromedia Flash. Speegle slibuje použitelnost i při vytáčeném připojení pomocí modemu od rychlosti 33 kbit/s.

Rady webmasterůmTvůrci vlastních stránek mohou aktivně ovlivnit to, co se o nich "posluchač Internetu" dozví.

http://panavox.panaserve.net/

http://http:/www.marketingsense.co.uk/

http://www.speegle.co.uk/


Jedním z faktorů, které jsou brány v potaz, je speciální tag specifikující popis stránky. Může vypadat takto:

<META name="description" content="This web site is all about everything you wanted to know about plants, suitable for northern European soils, with resistance to frost.">.

Je třeba také zmínit některé důležité upozornění firmy provozující daný vyhledávač. Nekorektní použití tagů může vést k penalizaci celé webové prezentace. Použití Speegle je velmi omezené pro stránky s minimálním textovým informačním obsahem, např. flash prezentace apod. Je snahou vyhledávače omezit vulgární a neslušné výrazy, ale odpovědnost za čtený text je vždy na straně webmasterů. Mohu uklidnit české tvůrce stránek, kteří by horečnatě začali ladit své weby, neboť s češtinou si zatím tento mluvící vyhledávač neví rady.

Efektivní využitíOvládání je dostatečně intuitivní, aby opravdu každý, kdo někdy vyhledával na Internetu, neměl žádný problém. Kromě klasického formulářového okénka je zde možnost výběru jednotlivých hlasů. Na výběr jsou zatím dva anglicky mluvící mužské hlasy a jeden ženský. Před vlastním odesláním dotazu je také nutné specifikovat šíři mluveného obsahu. Zda nám postačí titulek stánky, popis, adresa nalezené stránky, nebo jejich libovolná kombinace. Standardní nastavení bez zásahu uživatele upřednostňuje samozřejmě ženský hlas, jenž nám podá výklad složený z titulku a popisků stránek. Samozřejmostí je také úplné vypnutí mluveného slova.

Doplňkovou funkci speciálních kláves ocení zejména zrakově postižení. Pomocí číselných zkratek 1 až 10 lze spustit jednotlivé nalezené odkazy prezentované v řeči čísly. Klávesy N a B přepínají mezi jednotlivými stránkami s výsledky vždy po deseti odkazech. A to, co živí tvůrce tohoto vyhledávače, je možné vidět stiskem písmene A, tedy reklamní sponzorované odkazy.

Nevidomí, případně lidé s postižením zraku, se nemusí namáhat čtením mnohdy rozsáhlých výsledků - nalezené výsledky si nechají pohodlně přečíst. Toto ovládání by jim mělo navíc pomoci při orientaci na stránce a usnadnit její ovládání.

Kde všude může tedy v budoucnu hlas nahradit text?Technologie postavená na prosté řeči muže být informativní, zábavná i poučná zároveň. Informace je nejlépe uchována, pokud je vnímána více smysly. Je zde obrovský prostor pro studium cizích jazyků. Už v této testovací verzi je Speegle populární zejména v zemích, jako je Čína nebo Japonsko, k procvičení anglické výslovnosti. Zde lidé opakovaně odesílají dotazy s výrazem a nehodlají nic najít, jen chtějí slyšet, jak se dané slovo čte. Využití je také možné v knihovnách, dětských ústavech, školách apod.

Internet může na nás také chrlit aktuální zpravodajství z domova i ze světa. Současná podoba vyhledávače Speegle nabízí kromě samotného vyhledávání také poslech úryvků aktuálních zpráv ze zdrojů: BBC, Reuters, New York Times, Washington Post a dalších 20 předních světových zpravodajských serverů.

Komerční využití snad není nutné připomínat. Nenajde se asi firma, která by odmítla vykládat lidem přímo o svých produktech a tím na sebe přilákat pozornost, protože dnes už se jen tak někdo nenachytá na blikající banner nebo jiné reklamní triky.

http://www.speegle.co.uk/news.php

http://www.speegle.co.uk/news.php

Řekli o SpeeglePři pokusu kontaktovat někoho z týmu vývojářů se mi ozval sám hlavní tvůrce Gordon Renton, ale pravda je, že výřečností neoplýval. Zájem o Speegle ho velmi těší, ale samotnou technologii velmi střeží a kromě několika rozhovorů pro média žádné další informace poskytovat nebude. Také řekl, že je mnoho věcí, které teprve přijdou.

Pro BBC byl o poznání sdílnější. Na dotaz BBC News, jestli je nějaké spojení mezi Speegle a Google, kromě zřejmé grafické podobnosti, uvedl zakladatel a tvůrce vyhledávače Gordon Renton: "Google nemá spojení se Speegle a použití jasných barev je jednoduše proto, že stránka je lépe viditelná i pro uživatele s zrakovým postižením."

O kvalitě řeči řekl: "Zní stále trochu jako robot a může udělat několik chyb, ale nikdy nebudeme mít absolutně přirozeně znějící hlasy, není to vůbec zlé."

Digital policy manager Julie Howell o použitelnosti pro nevidomé uživatele uvedla: "Netvrdíme, že je to bude vhodné pro absolutně slepé lidi, ačkoli Národní královský institut pro slepé (RNIB) technologii sleduje."

Co říci závěrem?Speegle je stále ve stádiu testování, a proto je zbytečné mluvit o jeho dětských nemocech. Něco málo mu přece vytknout lze. Tvůrci použili kódování ISO-8859-1, které neobsahuje velkou spoustu znaků pro neanglicky psaná slova. Bylo by dobré zamyslet se, proč nepoužít mezinárodní kódování UTF-8, které obsahuje všechny znaky národních abeced. Můžeme jen doufat, že časem rozšíří rozhled i mimo anglicky mluvící země.

Dost kárání, protože jinak mě Speegle docela příjemně překvapil. Zatím se jedná spíše o malou technologickou ukázku, čeho jsou dnes počítače opravdu schopné, ale až čas ukáže, zda je to krok správným směrem.


Záhadný Google Toolbar PageRankGoogle tvrdí, že odraz PageRanku zobrazovaný na Toolbaru je pouze informace pro uživatele, jak moc je právě prohlížená stránka důvěryhodná. Znát přibližný PageRank se ovšem vyplácí také při běžné optimalizaci stránek. Pomocí odhaleného algoritmu kontrolního součtu si navíc můžete nasimulovat komunikaci toolbaru se servery Googlu.

Google hodnotí stránky veličinou zvanou PageRank. Je to číslo, které si Google počítá pro každé jednotlivé URL, které na webu najde. Hodně úkazů nasvědčuje tomu, že Google skutečně PageRank používá, a autoři Googlu to také uvádějí v dokumentacích a propagačních materiálech.

Odraz hodnoty PageRanku je pro každou stránku vidět na Google Toolbaru. To je (jak pravděpodobně víte) nástrojová lišta, kterou si lze doinstalovat do Internet Exploreru. Toolbar pro jiné prohlížeče neexistuje.

Google toolbar si uživatelé Internet Exploreru můžou stáhnout a nainstalovat na adrese http://toolbar.google.com. Během instalace se instalátor ptá, zda si přejete povolit rozšířené

http://toolbar.google.com/


volby. To se mimochodem týká právě toolbarového PageRanku. Kdo si rozšířené volby nepovolí, ten toolbarový PageRank neuvidí.

Smysl toolbarového PageRankuTakto vypadá proužek s toolbarovým PageRankem (klikněte pro zvětšení):

Jak uvádějí autoři toolbaru, zelený proužek, na kterém je hodnota vidět, má pouze jediný zamýšlený účel - naznačit uživateli stránky, jak moc je právě prohlížená stránka důvěryhodná. Nic víc. Že kolem hodnoty toolbarového ranku leckdo tropí neúměrný povyk, je ze sociologického hlediska zajímavý úkaz.

K čemu je PageRankJe třeba upřímně přiznat, že nikdo s výjimkou nejhlubších zaměstnanců Googlu neví, k čemu přesně PageRank je. Jsou pouze odůvodněné teorie. Vyšší PageRank by měl znamenat:

vyšší umístění stránky ve výsledcích hledání, rychlejší aktualizaci stránek v indexu, větší ochotu robota sledovat nové odkazy.

Ale ruku do ohně za to nikdo nedá.

Výpočet PageRanku je popsán v původní dokumentaci ke Google. Na základě této dokumentace vzniklo několik různých návodů vysvětlujících, jak vlastně PageRank funguje. Asi nejpopulárnější je PageRank explained s různými pofidérními modely, které ovšem pro pochopení základů odkazových strategií stačí. Asi nejlepší české zdroje na téma obecného PageRanku naleznete zde na Lupě v článku Michala Illicha (model náhodného brousiče) nebo v článku od Martina Kopty (Slavný trik velkého kouzelníka). Matematiky odkazuji na vzoreček.

PageRank stránky A se počítá z odkazů, které na danou stránku míří ze všech různých stránek B. Čím je těch odkazujících stránek B více, tím lépe. Ještě důležitější ale je, aby samy tyto stránky B měly vysoký PageRank. Také je důležité, aby na těch odkazujících stránkách B bylo kromě odkazu na stránku A málo dalších odkazů (přeposílaný vliv se dělí počtem tamních odkazů).

Rád dávám k PageRanku dva kulhající příměry. První je příměr o mohutnosti řeky. Řeka je natolik mohutná (má takový PageRank), jak mohutné má přítoky - vůbec nejde o to, kolik má přítoků. Druhý příměr je o babičce a vnoučatech (stránka babička jako odkazuje na stránky vnoučata). Pokud má babička pět vnoučat (odkazuje na pět stránek), dostane každé vnouče k vánocům dvě stokoruny (málo PageRanku). Kdyby měla tato babička jenom jedno vnouče (jeden odkaz), tak mu pošle k vánocům celý tisíc (hodně PageRanku).

Různá měřítka PageRankuPři studiu PageRanku nejspíš brzy zjistíte, že je značný zmatek v tom, v jakých číslech se PageRank vyjadřuje. Věřte nevěřte, objevují se čtyři různé "soustavy", vůči nimž se může PageRank chápat:

http://www.jakpsatweb.cz/google.htm#pagerank

http://www.jakpsatweb.cz/google.htm#pagerank



http://www.iprcom.com/papers/pagerank/

http://www-db.stanford.edu/~backrub/google.html

http://i.iinfo.cz/urs/toolbar-pagerank-110656929280572.gif

1. PageRank počítaný od nuly do jedničky, matematicky nejhezčí teoretický model. Naprostá většina stránek v tomto modelu má PageRank velmi blízký nule. Hodně teoretické.

2. PageRank počítaný podle vzorečku z originální dokumentace a podle různých populárních návodů (zadejte do Googlu dotaz PageRank). Dosahuje hodnot od 0,15 do několika miliónů až miliard. Tyto návody do toho vnášejí pěkný zmatek.

3. PageRank, který si počítá Google interně. Neznámé hodnoty v neznámém intervalu s neznámou přesností, jedná se však o ta nejdůležitější čísla.

4. PageRank, který se zobrazuje na Google Toolbaru, označovaný jako Toolbar PageRank. Dosahuje hodnot od nuly do deseti, což je sice velmi hrubé dělení, ale na druhou stranu je pro veřejnost snadno pochopitelné.

Tak... a teď, jak se to přepočítává. První tři soustavy jsou vlastně to samé, protože jsou lineárně převoditelné. Pokud si pod tím nic nepředstavíte, můžete to zkusit tak, že jednou je to v kilometrech, podruhé v milimetrech a potřetí v metrech (velmi laicky podáno). Vždycky jsou to jenom nějaká čísla (pro každou stránku jedno číslo) vypočítaná z nějaké odkazové sítě a je jedno, jaké mají jednotky.

Zajímavější je to ovšem s Toolbarovým PageRankem, o kterém pojednává tento text. Zde je zřejmé, že nejde o lineární odvozeninu interních čísel, uvažuje se spíše o odvozenině logaritmické. Představte si to třeba tak, že Google si pro stránku www.lupa.cz vypočítá z odkazové sítě nějaké šílené číslo se sedmi číslicemi, třeba pět miliónů. A teď to na toolbarový PageRank převede podle nějaké logaritmické tabulky, dejme tomu se základem deset. Takže si řekne "Fajn, pět miliónů má sedm číslic, na toolbaru bude pro Lupu sedmička".

Toto je ovšem jenom laické přiblížení postupu, jak by to mohlo fungovat, takže tuto pasáž prosím necitovat! Ale přibližně logaritmická škála odpovídá zkušenosti webmasterů. Jakmile je totiž stránka mladá, tak se jí dobře stoupá. Začne na nule a jak nasbírá dva tři odkazy, brzo se dostane na jedničku. Na dvojku či trojku na toolbaru stránce stačí nějakých deset dvacet odkazů. Jakmile se ale stránka dostane na toolbaru na čtyřku nebo na pětku, přestane se zlepšovat tak rychle. Logaritmický model to pěkně ilustruje - čím jsem výš, tím těžší je další stoupání.

Dokonce se často stává, že toolbarový PageRank stránky poklesne. To nemusí být jenom tím, že stránka ztrácí odkazy. Spíše je to tím, že Google ten přepočet mění, a jak je v síti stále více stránek, neustále jej zpřísňuje, aby toolbarový PageRank vyjadřoval relativní důležitost dané stránky. Kdyby to Google nezpřísňoval, nastala by inflace (opět zjednodušuji).

Jak si stojíte?Dokud jsou stránky mladé, nemají GTPR žádný. Proužek na toolbaru je celý bílý, čili nula. Tato nula neznamená, že na stránku nevedou žádné odkazy, ale prostě to, že v databázi ranků stránka zatím nemá záznam. Pro některé stránky, které v databázi Googlu jsou už velmi dlouho, sice toolbar ukazuje také nulu, ale takových je málo.

Po příští aktualizaci ranku stránky trochu vyskočí. Není těžké dostat stránku na GTPR čtyřku. GTPR pětka už je slušná stránka a šestka (v českých poměrech) nadprůměr. GTPR sedmičku má z českých webů jenom několik desítek stránek. Osmičku míval Toplist nebo Navrcholu, dnes má osmičku z českých stránek (pokud vím) pouze Karlova univerzita.

http://www.cuni.cz/

http://www.lupa.cz/

Za devítkou a desítkou už musíme do zahraničí. Nikoho asi nepřekvapí desítka u yahoo.com nebo google.com, ale třeba msn.com má jenom devítku.

Pokud vás trápí, že soused má šestku a vy jenom pětku, nedělejte si z toho těžkou hlavu. Kromě toho, že na tom doopravdy nezáleží, je dobré si uvědomit, že se PageRank počítá zvlášť pro každé jedno URL, nikoliv pro celý web. Takže třeba - podle mě - je lepší mít web s pěti stránkami, každou s toolbarovým rankem 5, než jednu stránku s rankem 6.

Jak PageRank v toolbaru fungujeKdyž v Internet Exploreru zobrazím nějakou stránku, dejme tomu www.example.com, tak si toho Google Toolbar všimne a pošle na server toolbarqueries.google.com/ požadavek. V odpověď dostane číslo, které zobrazí. Komunikace probíhá normálním http protokolem. Požadavek vypadá takto:

http://toolbarqueries.google.com/search?client=navclient-auto&q=info: www%2Eexample%2Ecom&features=Rank&ch=6904731021

Když provedu pitvu požadavku, tak:

http://toolbarqueries.google.com/search je prostě adresa skriptu, který toolbar dotazuje, ale funguje i www.google.com/search

client=navclient-auto je nějaký parametr, bez kterého to nefunguje,

q=info:www.example.com je url, u kterého chce toolbar znát rank

features=Rank je parametr, kterým toolbar říká, že chce jenom rank (bez tohoto parametru by dostal celé popiskové XML)

ch=6904731021 je tajný parametr specifický pro každé URL (ch jako checksum). O parametru ch se ještě zmíním.

Na výše uvedený požadavek o www.example.com přijde pro Google Toolbar jako odpověď toto:

Rank_1:1:7

Důležitá je jen ta sedmička na konci. (První jednička je o ničem, druhá jednička udává počet číslic výsledku. Např. pro www.google.com vypadá odpověď takto: Rank_1:2:10). Toolbar tu sedmičku vezme a nakreslí zelený proužek odpovídající délky.

Parametr ch funguje jako ochrana před automatickým dotazováním. Toolbar v sobě má zabudován tajný algoritmus, kterým si za provozu pro každé URL vypočítá parametr ch. Podle správného ch server pozná, že jej dotazuje Google Toolbar, protože parametr ch by žádný jiný program neměl být schopen vypočítat. To je možná důvod, proč toolbar neexistuje pro Mozillu - algoritmus by se asi v rozšířeních Mozilly nedal dobře utajit, ale to hádám. Pokud na server pošlete požadavek bez správného parametru ch odpovídajícího dotazu, dostanete chybu 403.

Odsekávání parametrů

Pokud se s Google Toolbarem podíváte na statickou stránku bez parametrů (v jejíž adrese prostě není otazník), řekne vám Toolbar odvozený rank přesně takový, jaký pro dané URL zná.

Pokud se ovšem podíváte na dynamickou stránku, která má v adrese otazník, dostanete odpověď nepřesnou. Toolbar totiž před odesláním dotazu na server toolbarqueries.google.com z adresy odstraní všechno, co je za otazníkem.

Příklad pro stránku http://www.lupa.cz/clanek.php3?show=3485:

V Exploreru na toolbaru to vypadá, že stránka s článkem má toolbarový PageRank rovný nule. Je to tím, že se toolbar ptá serveru na údaje o useknutém URL:

http://www.lupa.cz/clanek.php3?

To je ovšem adresa, na kterou nevedou žádné odkazy, a tak má rank skutečně roven nule. Pokud by se ale toolbar zeptal na rank konkrétní stránky, třeba tímto dotazem:

http://www.google.com/search?client=navclient-auto&ch=63026232856& q=info:http://www.lupa.cz/clanek.php3?show=3485

dostal by odpověď, že článek má rank 2. Kdo máte stránky s dynamickými adresami, vidíte na toolbaru tedy jiný rank, než stránky skutečně mají.

V tomto ohledu se zvyky toolbaru docela mění (software se automaticky aktualizuje). Ještě v prosinci 2004 se toolbar ptal sice též na useknuté URL, ale otazník z toho mazal také. Těžko říci, jak to bude za měsíc. Před několika lety měl toolbar ještě jiný zvyk - PageRank stránek, které neznal, odhadoval z adresářové struktury. Vyskákal po adresářích na URL, které znal, dozvěděl se PageRank, za každý adresář do hloubky potom ubral jeden bodík a odhad zobrazil. Dlouho už to tak ale nedělá.

Aktualizace toolbarového PageRankuServery Google, kterých se toolbar ptá na rank, tedy nějak vědí, jaký rank která stránka má. Nepočítají si to ovšem průběžně, ale nárazově aktualizují údaje pro všechna URL najednou. Google si ta čísla asi někde předpočítá a nahrává to na popiskové servery ve vlnách. Možná to souvisí s tím, jak je iterační výpočet PageRanku pro všechny stránky webu náročný (několik miliard stránek).

Rok 2004 byl, co se aktualizací toolbarového PageRanku týká, poměrně zajímavý. Zhruba celé léto se totiž GTPR pro žádnou stránku neaktualizoval. První velká aktualizace proběhla 16. března, pak se to měnilo průběžně přibližně do konce dubna. Načež dlouho nic, dokonce se uvažovalo o tom, jestli Google tuhle funkci nehodlá zrušit. Až 9. září se ranky konečně razantně změnily. Další malé aktualizace proběhly koncem října (to si nejsem zcela jistý) a pak těsně před koncem roku.

Tak zvané prolomení PageRankuUž jsme si popsali, jak dotazovat server, pokud chcete zjistit rank. Můžete přímo dotazovat popiskové servery, ale u každého dotazu potřebujete ale znát parametr ch, bez kterého to nefunguje. Toolbar je navržen tak, aby se ch nedalo z dotazu spočítat.


Pro konkrétní URL, které jste už Explorerem navštívili, můžete parametr ch najít v prohlížečové keši. Čerpám z jednoho návodu:

Navštivte Explorerem stránku, u které chcete znát ch. Jděte do keše prohlížeče, seřaďte objekty podle názvu. Hledejte položku začínající

textem search? ze serveru toolbarqueries.google.com. Položku dvojklikem otevřete. Dostanete se na stránku s výpisem ranku, jejíž URL je

velmi dlouhé a obsahuje pro parametr ch správnou hodnotou.

Ačkoli jde o postup logický, je to poněkud zdlouhavé a nedá se to aplikovat pro adresy obsahující otazník. Kdyby existoval algoritmus, který pro dané URL parametr ch vypočítá, bylo by to zajímavější. Právě takový algoritmus odhalil v březnu 2004 autor stránky http://www.top25web.com/pagerank.php. Tato stránka dovolovala (a stále dovoluje) zjistit toolbarový PageRank u mnoha URL najednou. Byla to tehdy docela převratná událost. Například Petr Weida napsal, že Toolbar PageRank je prolomen, přičemž přesnější by asi bylo, kdyby napsal, že byl prolomen pouze Toolbar. Veřejně známý vzorec výpočtu samotného PageRanku totiž není třeba prolamovat.

Přibližně v téže době, na jaře 2004, prokmitla ohledně PageRanku křivka humbuku. Zatímco předtím byl PageRank téměř nábožně vyznáván jako kouzelný proutek pro úspěch stránek, dnes je mezi odbornější veřejností PageRank bezmála odepsán coby totální zbytečnost a hračka pro webmastery. Oba přístupy jsou dle mého názoru chybné.

Dnes je znám i algoritmus výpočtu parametru ch. Lze jej dokonce stáhnout jako program v PHP (pokud se v algoritmu budete šťourat a něco z něj budovat, dejte pozor na šestku, která se těsně před koncem vždycky přidává na začátek výsledku). Tento algoritmus je pravděpodobně použit v hledání na Google s výpisem toolbarového PageRanku. Během aktualizace rankových databází na různých googleovských serverech se dají posuny sledovat nástrojem Future PageRank, který dotaz na rank posílá na různé servery.

Googlu se samozřejmě nelíbí, že byl odhalen výpočet jeho tajného parametru. Proto vydal novou nenápadnou verzi toolbaru 2.0.114 (toolbar se aktualizuje automaticky), v němž výpočet trochu změnil. Dotazy ze starých verzí toolbaru jsou stále akceptovány, ale počítá se, že je Google časem vypne a bude přijímat pouze nová ch. Ovšem i výpočet z verze 2.0.114 byl rozlousknut, takže lze očekávat, že se ještě bude měnit.

http://www.lupa.cz/clanek.php3?show=3848Knihovna GoogleNedávno oznámené zahájení projektu spolupráce mezi vyhledávačem Google a některými knihovnami s cílem zpřístupnit obsah může přinést novou kvalitu informací na internetu. Ale také dohromady nic nového. Jak by mohlo vypadat Googlovo univerzální vyhledávání? A není na místě začít se bát Velkého bratra?

Projekt Google se stal nejpoužívanějším internetovým vyhledávačem především proto, že byl schopen nabídnout novou formu fungování aplikace tohoto typu. Klasické prohledávače - ať si říkaly jakkoliv - fungovaly vždy na bázi katalogu a především jako součást něčeho, co jejich provozovatelé obvykle nazývali "portál" a co technicky vzato bylo vždy jen omáčkou okolo hlavní funkce, tedy vyhledávání.

http://www.google.com/


http://www.seochat.com/seo-tools/future-pagerank/

http://www.seo-guy.com/seo-tools/google-pr.php

http://google.dirson.com/pagerank_checksum_php.txt

http://google.dirson.com/pagerank_checksum_php.txt

http://www.zpravy.net/weblog/archiv/0403/google-toolbar-pagerank-prolomen.php

http://www.top25web.com/pagerank.php

http://www.webrankinfo.com/google/toolbar/checksum.php

Google přinesl nejen novou, ale i inteligentnější metodu prohledávání webu na základě relevance stránek, nikoliv jen jejich obsahu, ale také nový přístup k vyhledávání. Aby inovací nebylo dosti, posléze k tomu všemu ještě přidal nový formát reklamy, nový přístup k emailu a nyní ohlášený nový přístup do několika univerzitních knihoven – samozřejmě až po, také novém, prohledávání desktopů.

Nové?Technicky vzato, nic z toho, co Google přináší, není až tak úplně nové. Prohledávání souborů v lokálním počítači je součástí každého operačního systému a slušnějšího souborového manažeru. Také tématická textová reklama existovala dávno předtím, než ji vyhledávač zavedl, nicméně teprve on byl tím, komu se podařilo tento přístup prosadit. K podobným závěrům bychom se dostali i v případě stále ještě ne v ostrém provozu běžícího a kontroverzního Google Mailu, v případě prohledávání dokumentů a - světe div se - i v iniciativě zprostředkovat uživatelům Internetu elektronický obsah knihoven.

Google je novátor v tom, že své nápady umí dokonale prodat, a to i když to nejsou nejnovější nápady, ani ty nejdokonalejší. Jeho iniciativy jsou však součástí celistvé strategie, která směřuje k určitému cíli. Kdyby se jej podařilo dosáhnout, měli by uživatelé k dispozici to, o čem hovořil (neúspěšně, přesněji, částečně úspěšně) například Microsoft již před několika lety, v době uvedení Windows 2000. To znamená, měli by k dispozici maximum dostupných informací bez ohledu na jejich formu a zdroj z jediného místa. Zdroje ve vlastních počítačích a vzdálených knihovnách by v jediném rozhraní a s jediným vyhledáváním spolu s vlastním emailem vytvořily jeden obrovský informační celek. To všechno by se přitom ovládalo jednoduše, vypadalo intuitivně a chovalo se srozumitelným způsobem. Může se ovšem něco takového povést?

Vyhledávač v knihovnáchGoogle je tedy široce využívaným vyhledávacím serverem, nejúspěšnějším svého druhu. Jeho rozhraní je integrováno do mnoha aplikací (například do Mozilly Firefox) i do základních komponent operačních systémů. Technicky má k uživatelům velmi blízko a díky vyspělé technologii má blízko i ke zdrojům. Zatímco po dlouhou dobu prohledával pouze Internet, tedy to, co na něm bylo veřejné, poslední dobou se jeho vývojáři soustředí i na objekty, které běžný webový vyhledávač ignoruje nebo neprohledává. Konkrétně na dokumenty v různých formátech. To způsobilo již v minulosti kontroverze a určité problémy, integrace prohledávání těchto "uzavřených" objektů však byla ve srovnání s pokusem o prohledávání celých knihoven pouze malým soustem.

Oznámení o spolupráci s pěti významnými institucemi o zpřístupnění jejich obsahu (konkrétně se jedná o univerzity v Harvardu, Oxfordu, Standfordu, Michiganu a veřejnou knihovnu v New Yorku) přišlo poté, co již existuje specializované prohledávání například katalogem internetového knihkupectví Amazon. Mezi obsahem knihkupectví a jednou z největších veřejných knihoven na světě ale existuje podstatný rozdíl.

Pokud chce Google svůj projekt dotáhnout do konce, bude muset být naskenováno několik milionů svazků knih. Ne všechny knihovny souhlasily s plným zveřejněním všeho, co se v nich ukrývá (podrobnosti například zde), přesto ale půjde o obrovský výkon, náročný jak na techniku, tak i na lidi, kteří jej budou provádět. Hromadné skenování knih a jejich digitalizace do podoby elektronického textu (OCR) totiž není vůbec jednoduchá, pokud se má současně zachovat šetrnost k často velmi starým a vzácným výtiskům. Mimo jiné i proto se

http://technet.idnes.cz/tec_aktuality.asp?r=tec_aktuality&c=A041215_100014_tec_aktuality_vse

předpokládá, že celá operace potrvá až deset let. O nákladech, které si vyžádá, můžeme pouze spekulovat: budou, řekněme kulantně, nemalé.

Ani v případě, že Google se svou vizí online superknihovny uspěje, nebude to poprvé, co něco podobného vzniklo. Digitalizací knih a jejich veřejným vystavením se zabývá například projekt Gutenberg, nejstarší a zřejmě nejobsažnější svého druhu, a několik dalších. Také jednotlivé knihovny, právě například na univerzitní úrovni, vytvářejí své online katalogy abstraktů z literárních děl a metadat o nich. To, že se nikdo nepokusil celou knihovnu digitalizovat a dát k dispozici online, není tím, že by to nikoho nenapadlo (podobné projekty v malém existovaly a existují), ale proto, že taková monstrózní akce vzbuzuje mnoho problémů. Technických, finančních, právních a lidských. Google se cítí na to, aby je překonal, a pokud se vydal cestou spolupráce s velkými univerzitami, vydal se pravděpodobně správným směrem.

Uživatel a jeho Velký bratrVize webové stránky s formulářem, který prohledá procentuálně malou, ale kvantitativně obrovskou část lidského vědění, a výsledek zobrazí s nevtíravou reklamou, případně doplní o možnost elegantních návrhů možností vašeho vyhledávání dříve, než je celé zadáte, je vizí velice lákavou. Pokud budou do tohoto vyhledávání zahrnuty zdroje ve vašem počítači, v tom, který stojí vedle něj, i ty, jež jinak leží na poličce v tisíce kilometrů vzdálené knihovně či v katalogu elektronického obchodu, je to ještě lákavější. Problémem však je, že spojování databází, tedy jinak řečeno zdrojů dat, je bráno jako jedno z hlavních ohrožení soukromí na Internetu. Někteří uživatelé, přesněji některé instituce, tak mohou rodící se službu Googlu prohledávání v knihovnách a databázích, tzn. jeho stávající impérium v oblasti vyhledávačů, chápat jako své ohrožení. V případě online světa pak doslova jako něco podobného orwellovskému Velkému bratrovi, který díky tomu, že může v reálném čase prohledávat a porovnávat veliké množství informací, ví na každého vše. A je pak otázkou, jak tyto informace půjdou využít, jinak řečeno zneužít.

Pro uživatele je ale kombinace služeb Google i s budoucími knihovnami velkou výhrou a velkým zjednodušením života, neboli přístupu k informacím. S trochou nadsázky se dá říct, že přestože Google nepřichází s žádným zcela novým nápadem, má jeho ryze komerčně myšlená aktivita potenciál zajistit uživatelům Internetu přístup k určitému množství lidské moudrosti. A když si odmyslíme reklamu, která se jim k této moudrosti bude zobrazovat, je jen na nich, jak se k ní postaví a jak ji využijí.


Který vyhledávač je nejlepší?Jak vypadá úroveň vyhledávání na českém webu? Jak si stojí s kvalitou jednotlivé vyhledávače a portály? Jak nakládají s textovou reklamou? Udělali jsme test a zaměřili jsme se především na relevanci nabízených odkazů. Kdo čeká tuhý boj, mýlí se. Jyxo propadlo na celé čáře. Lépe dopadl dokonce i jeden z portálů, využívající jeho technologii.

Zatímco minulý týden se Martin Kopta zamyslel nad rozložením vyhledávačů z pohledu obliby u uživatelů, já jsem se rozhodl otestovat jejich schopnosti. Test jsem zaměřil především na to, co dělá vyhledávač vyhledávačem, a to je kvalita výsledků. Je sice hezké, že fulltexty nabízejí nejrůznější skloňování a ohýbání slov, navrhují hledačům spoustu synonym a předhánějí se v počtu indexovaných stránek, ale co s nimi, když potom nedokáží uživateli



http://www.google.com/webhp?complete=1&hl=en

http://www.gutenberg.org/

předložit hledaná data? Nejdůležitějším aspektem proto musí být relevance. Snažil jsem se dívat na věc pohledem samotného uživatele, který chce jediné – dostat své informace.

Zvolil jsem si osm výrazů (protože je test zaměřen na české uživatele, všechny v mateřském jazyce), a ty zadal do tří v Česku nejpoužívanějších vyhledávačů (Google, Jyxo, Morfeo) a do tří nejoblíbenějších portálů (Seznam, Centrum, Atlas). Výsledkem testování bylo pořadí prvního odkazu, který uspokojil mé hledání.

Vybrané dotazy byly zadávány na hlavních stranách výše uvedených serverů. Používal jsem základní nastavení, žádné doplňující či rozšířené vyhledávání. Do pořadí výsledků nejsou započteny reklamní odkazy.

Dotazy jsem volil tak, jak vyhledávají uživatelé. Tzn. pokud člověk hledá obaly na hudební cd, zadá jednoduše obaly cd a od vyhledávače čeká, že je dostane. Stejně tak, pokud chce vše o životě Jaroslava Seiferta, zadá pouze jméno spisovatele Jaroslav Seifert. Je samozřejmé, že posuzování může být do jisté míry neobjektivní, protože když někdo hledá mapu Evropy, může požadovat regionální, geografickou nebo politickou, proto jsem vybíral obzvláště ty dotazy, které jsou na subjektivitě testera závislé co nejméně.

Vyhledávače vs. portályJelikož jsem si jako vzorek vybral tři vyhledávače a tři portály, můžeme si vyhledávání na těchto serverech jednoduše porovnat. Hned na začátek je třeba říci, že lepší je používat přímo vyhledávače. Chcete důvody?

Sponzorované odkazyAsi největší bolestí českých portálů jsou sponzorované odkazy. Zatímco Morfeo a Jyxo žádné sponzorované odkazy neobsahují a Google je odděluje dostatečně (čarou, barvou, pozadím, umístěním), portály si s nějakým rozlišováním hlavu příliš nelámou. Často je odlišením přirozených a placených odkazů pouze malý šedý text. To, že tu máme zákon o regulaci reklamy, asi ještě nezaznamenaly.

Kvalita výsledkůPortály před standardní výsledky přidávají nalezené sekce ve vlastním katalogu a samotné odkazy z katalogu. Často také upřednostňují výsledky z databáze firem. Udržování těchto katalogů je pro ně dražší, proto jim dávají přednost. Taktéž je to součást marketingové politiky - firmy si u nás spíše zaplatí odkaz a zviditelnění, když je budeme umísťovat vysoko. Tyto odkazy jsou bohužel většinou dosti irelevantní a nepotřebné, proto musí uživatelé pro standardní výsledky z fulltextu až o desítku míst níže.

PřeplněnostDalším problémem portálů je jejich zbytečná přeplněnost. Přehršel možností a výběrů, regionálního vyhledávání, zbytečných tipů a často i bannerová reklama dosti komplikují orientaci ve výsledcích. Vyhledávače se soustředí na jediné – podat výsledky fulltextového vyhledávání. Nejsou zahlceny blikající reklamou a dalšími, často nepotřebnými funkcemi a možnostmi, které vyhledávání spíše ztěžují, než aby mu napomáhaly.

Souboj mezi portály a vyhledávači tedy dopadl celkem jasně, ostatně je to zřejmé i z následujícího pořadí serverů.

http://www.atlas.cz/

http://www.centrum.cz/

http://www.seznam.cz/

http://www.morfeo.cz/

http://www.jyxo.cz/


1. GoogleVyhledávač Google hraje již delší dobu prim ve světovém vyhledávání, ale v omezení na češtinu byly o jeho kvalitách často pochyby. Zejména proto, že nedisponuje v českém rozhraní takovým množstvím funkcí jako jeho čeští konkurenti. Neumí ohýbat slova, nehledá synonyma a nepomůže v překlepech. Přesto všechno je jeho vyhledávání natolik propracované, že dokázalo v našem testu všechny porazit.

2. MorfeoMorfeo může být v oblasti vyhledávání považováno tak trochu za černého koně. Příliš se o něm nemluví, ale již předešlé testy ukázaly jeho výjimečnou kvalitu. Podporuje vyhledávání v češtině, umí pracovat s diakritikou, umožňuje možnosti rozšířeného vyhledávání a výsledky nejsou rušeny žádnou reklamou. Příjemnou funkcí jsou detailní informace u každého odkazu. Co bychom mohli Morfeu vytknout, je velmi malá aktualizace a ne zrovna nejlepší popisky u odkazů. Jinak mohu vřele doporučit, odstup od prvního Google byl minimální.

3. CentrumJak vidno, portál Centrum těží zlato ze své technologie Morfeo, která dosáhla v našem testu výborných výsledků. Příčinou tak dobrého vyhledávání na Centru je to, že do výsledků Morfea nijak nezasahuje (na rozdíl od Atlasu a Seznamu), pouze před výsledky přidává sponzorované odkazy, sekce z katalogu a upřednostňuje weby z katalogu, jak je to ostatně u portálů běžné.

Plusem vyhledávání na Centru je nejlepší vzhled a formátování výsledků, jsou přehledné a oddělené od sebe dostatečnou mezerou. V pravém sloupci nabízí omezení vyhledávání na určitý region a některé další sekce z katalogu.

Jedinou výraznější vadou na kráse je reklama. Sponzorované odkazy jsou ze všech testovaných serverů nejhorší, respektive jejich oddělení od standardních výsledků je nedostačující. Je tak učiněno pouze malým šedým textem "doporučujeme" vedle odkazu – nic více, nic méně.

4. SeznamNejnavštěvovanější portál českého Internetu, Seznam, se umístil na čtvrtém místě. Pro vyhledávání "u nás" používá technologii Jyxo, při hledání "ve světě" jsou výsledky totožné s Googlem. Ale protože náš test byl prováděn při standardním nastavení, výsledky jsme dostávali od Jyxa.

Kapitolou samou pro sebe je opět reklama. Až tři sponzorované odkazy nad standardními výsledky odlišené pouze malým žlutým textem "Seznam doporučuje". Jako obvykle není těžké reklamu zaměnit s přirozenými výsledky. Navíc za reklamu můžeme považovat i rámeček "Náš tip" umístěný v pravém sloupci, v němž odkazy s dotazy nijak nesouvisí.

Stejně jako ostatní portály přidává možnosti regionálního vyhledávání, sekce a odkazy z katalogu a až poté přirozené výsledky.

5. JyxoJyxo se chlubí denně aktualizovanou databází, skloňuje, časuje, ohýbá slova, kontroluje pravopis a nabízí synonyma, nicméně z vyhledávačů se v našem testu umístilo nejhůře. Osobně byl tento výsledek pro mě zklamáním. Mám-li být konkrétnější, má problémy s indexací webů v rámcích a oproti konkurenci má menší databázi. Často vracel dosti nepřesné

výsledky, typickým příkladem byl výraz foto na hrnek, kdy nenašel téměř nic použitelného na rozdíl od ostatních, kteří téměř neměli problém. Překvapením je také, že se umístil níže než portál Seznam, kterému výsledky sám dodává.

6. AtlasJednoznačně poslední skončil se svou kvalitou vyhledávaných informací portál Atlas. U žádného testovaného dotazu nedokázal vrátit použitelný výsledek na prvním místě, ba dokonce u hledání rozložení sil v senátu nás nedokázal uspokojit vůbec. Atlas používá pro vyhledávání technologii Jyxo, samozřejmě také přidává svou reklamu, zvýhodňuje odkazy z atlasu firem a katalogu. Především to upřednostňování až pěti firemních odkazů před standardními výsledky je zbytečné a tyto odkazy jsou často dosti nepotřebné. Jen zabírají místo užitečnějším.

Stejně tak to Atlas přehání i s reklamními odkazy. Před výsledky jich umísťuje až šest, první tři jsou podbarvené žlutě s červeným textem "Doporučujeme", zbytek bez zvýrazněného pozadí, což opět může uživatele mást.

Atlas jako jediný z portálů nabízí přímo u výsledků odkaz na posledně zaznamenanou verzi stránky, což můžete využít v případě, že je daný web nedostupný. U vyhledávačů věc samozřejmá, u portálů výjimečná. I to je důvod, proč se spíše přikláním k používání vyhledávačů.

Jak již je obvyklé, v pravém sloupci najdete rozšířené volby, možnost omezení vyhledávání dle regionu a odkazy na příbuzné sekce z katalogu. Atlas mimo to vyhledává zadaný dotaz v encyklopedii CojeCo a zobrazuje část popisu hesla. Tuto funkci využijete tehdy, když hledáte nějaká výkladová slova. Naopak hledáte-li vlastní jména osob, Atlas vám pomůže s určením jejich svátků.

Na závěr je nutno poznamenat, že výsledky Atlasu jsou ze všech vizuálně nejhorší - jsou nahuštěné příliš blízko na sebe a špatně se v nich orientuje.

Stejná technologie, jiné výsledkyJak již bylo zmíněno, Centrum do fulltextového hledání Morfea nezasahuje vůbec, ale jak můžeme zjistit z tabulky na konci článku, výsledky Seznamu, Atlasu a Jyxa jsou docela rozdílné, přestože všichni používají stejnou technologii. Proč? Každý server používá stejný software (Jyxo), který indexuje web, ale databázi mají svou vlastní, a ta se může lišit ve velikosti a aktuálnosti. Algoritmus řazení výsledků je neměnný. Pouze u Atlasu, jak mi potvrdil Michal Illich z Jyxa, se pro výpočet zohledňují i katalogové informace, ale výsledky jsou řazeny v pořadí přednostní výpisy Atlasu, firmy a nakonec fulltext.

Může tak vzniknout situace, kdy např. u dotazu atrofie dásní Jyxo vrátí použitelný výsledek až na čtvrtém místě, zatímco Atlas na třetím a Seznam dokonce na prvním, přičemž tato stránka obsahuje slova již v titulku, ale Jyxo ji ve své databázi nenajde vůbec. Stejně tak při hledání výsledku fotbalového finále ME 2004 vrací tyto tři servery naprosto rozdílné výsledky, Seznam dokonce vrátí odkazy podobné Googlu. Tak nevím, ale věřme vyjádření z Jyxa i Atlasu, že rozdíl je zapříčiněn rozdílnou databází.

Položený dotaz Google Morfeo Centrum Seznam Jyxo AtlasJaroslav Seifert 1 1 1 6 1 9

http://www.cojeco.cz/

Položený dotaz Google Morfeo Centrum Seznam Jyxo Atlasoficiální stránky skupiny Kabát 1 3 6 1 1 2fultonský projev 1 2 2 9 7 8atrofie dásní 1 1 1 1 4 3technické parametry MDA II 1 1 1 1 1 2rozložení sil v senátu 2 1 1 2 3 -výsledek finále ME 2004 2 1 1 3 2 4foto na hrnek 1 1 1 1 8 2Průměrné hodnocení 1,25 1,375 1,75 3 3,375 -Umístění 1. 2. 3. 4. 5. 6.

v tabulce nejsou zahrnuty dotazy, které skončily stejným výsledkem u všech serverů

ZávěrS potěšením mohu oznámit výborné výsledky Googlu i Morfea. Při vyhledávání doporučuji používání těchto vyhledávačů, protože vrací rozdílné a přitom kvalitní výsledky. Naopak zklamáním je pro mě vyhledávač Jyxo, který měl s některými dotazy nemalé problémy. Avšak ze zeleného tábora přicházejí odhodlané hlasy skoncovat se spamem a zvětšit databázi až o 20 procent. Tak ho, prosím, neodsuzujme.

Níže následuje vyjádření, které k článku zaslal Michal Illich za společnost Jyxo, s. r. o.:

1. Nejprve k jedné nepravdě, k tvrzení, že Jyxo má "oproti konkurenci menší databázi". Jak si čtenář může lehce zjistit, pro těch osm autorem vybraných dotazů vrátí Jyxo v šesti případech více odpovědí než Google a v sedmi více než Morfeo. Osobně se mi zdá, že právě větší databáze Jyxa pak pomohla k horšímu výsledku v tomto testu - pro vyhledavač je těžší z nich vybrat.

2. Test zkoumal jen dost úzkou oblast dotazů. Zatímco skuteční uživatelé pokládají ve 40 procentech případů jednoslovné dotazy, a jen málokdy (8 procent) víc jak trojslovné, test neměří žádné jednoslovné dotazy, naopak z poloviny je zaměřen na mnohaslovná spojení. Druhý zdroj zkreslení je diakritika - zatímco v testu je důsledně užívána, v praxi je asi polovina položených dotazů bez českých znaků. Kdyby používání diakritiky v testu odpovídalo skutečnosti, Google by se výrazně propadl. Uživatelé chtějí také od vyhledavače různé věci - najít firmu, kontakt, informaci, provést důkladnou rešerši, poradit s jazykem, najít citát, dohledat, co už jednou viděli, atd. Ale test samotný je zaměřen jen na jeden druh dotazů. Vybraná témata jsou málo obvyklá, nejčastější je Jaroslav Seifert s 0,001% hledanosti, ostatní jsou řádově méně časté. Kdyby se test nazýval "Hodboďův subjektivní test mnohaslovných, s diakritikou psaných informačních dotazů na neobvyklá témata", tak prosím. Ale prezentovat jej za "test vyhledavačů" je trochu troufalé a nepodložené.

3. Na druhou stranu, test odkryl i pár skutečných slabin Jyxa. Ty 3 dotazy (foto na hrnek, fultonský projev, atrofie dásní), které zapříčinily dnešní prohru Jyxa, by jistě šly zodpovědět lépe. Dobrá zpráva je, že víme, jak na to (např. lépe rozlišovat pořadí slov, viz "na hrnek" v dotazu a časté irelevantní "hrnek na" v odpovědi Jyxa). V posledních týdnech jsme tvrdě pracovali na dalších jazykových vlastnostech a spolu s dalšími vylepšeními se budou v příštím měsíci objevovat v ostré verzi.


Podíl vyhledavačů na českém webuOd února do listopadu vzrostl podíl českých vyhledavačů především na úkor Googlu. Překvapivě získaly především české fulltexty. Znamená to, že se kvalita vyhledávání českých fulltextů tak razantně zlepšila, nebo jsou za nárůstem noví uživatelé, kteří ještě neobjevili kouzlo zjednodušeného rozhraní Googlu?

Podíly vyhledavačů jsou ošemetným tématem, kolem kterého se vždy strhne v komentářích pře. Minulý týden opět do ohně přililo olej Navrcholu.cz, které zveřejnilo srovnání podílů vyhledavačů podle statistik odkazovačů na stránkách, jimž měří údaje o návštěvnosti. Navrcholu.cz ke srovnání nabízí údaje z letošního února a listopadu:

VyhledavačPodílúnor 2004 listopad 2004

1. Seznam.cz (celkem) 48,54 % 51,59 %· katalog 38,53 % 36,66 %· fulltext 9,99 % 14,93 %

2. Google (celkem) 25,46 % 21,69 %· Goolge.com 16,34 % 15,52 %· Google Slovensko 1,25 % 1,44 %· Google Německo 1,62 % 0,87 %

3. Centrum (celkem) 6,57 % 7,83 %· mix 3,31 % 5,23 %· katalog 2,32 % 2,07 %

4. Atlas.cz (celkem) 6,72 % 6,82 %· mix 4,09 % 4,21 %· katalog 2,44 % 2,34 %

5. Jyxo.cz 0,86 % 1,92 %6. Zoohoo.cz 0,89 % 1,39 %7. NAVRCHOLU.cz 1,09 % 1,25 %8. MSN (celkem) 1,19 % 0,95 %

Navrcholu.cz tiskovou zprávu o podílech vyhledavačů zveřejnilo pod bombastickým titulkem Seznam je hlavní bránou do českého Internetu. Lehký přesah přes polovinu refererů k tomu tvrzení dává oprávnění. Pojďme se ale podívat, o čem data vypovídají.

Předně si všimneme, že o několik procentních bodů posílily české portály na úkor zahraničních (Google -3,77 a MSN -0,24). Na Seznamu lehce poklesl podíl katalogu a výrazně vyskočil podíl fulltextu. Polovinu svého podílu ztratil německý Google. Podstatně si polepšilo Centrum (+1,26, což je o čtvrtinu více než v únoru) a lehce i Atlas - v obou případech ve prospěch výsledků hledání sloučených z katalogu i fulltextu.

http://www.iinfo.cz/tiskova_zprava/navrcholu_seznam_branou_ceskeho_internetu/


Pro další srovnání bude zajímavé srovnat i podíly příchodů z katalogu Navrcholu.cz (+0,16 procentního bodu, což je o 15 procent více než v únoru). To sice není skutečný vyhledavač, ale poslouží nám jako kontrolní prvek u srovnání ostatních podílů.

Sezónní vlivyNejoblíbenějším vysvětlením pro výkyvy jsou sezónní vlivy. Například přístupy z německého Googlu jsou vyšší v době, kdy jezdí Němci do ČR lyžovat. V listopadu sezóna dovolených v Německu nebyla. Ale co s těmi ostatními podíly?

Reklamní kampaně, které proběhly převážně v televizi letos se začátkem školního roku, by nás mohly svádět k tvrzení, že českým vyhledavačům pomohly reklamní spoty. Jenže Jyxo, Zoohoo a Navrcholu žádnou reklamu neměly, a přesto rostou více než Seznam nebo Atlas. Přikláním se k názoru, že Internet prochází ročním životním cyklem. V průběhu podzimu přicházejí na Internet noví uživatelé, pro které jsou portály a české vyhledávání záchytným bodem. Jak se noví uživatelé v průběhu roku s Internetem sžívají, přechází část z nich k jednoduchému rozhraní Googlu.

Mějme na paměti, že počet uživatelů Internetu stále ještě roste, od září zase "rekordně". Takže uživatelé Googlu nejspíš neubývají v absolutních číslech, ale pouze je jejich podíl nižší s tím, jak se na Internetu objevují uživatelé noví.

Dušan Janovský, který působí jako nezávislý konzultant pro problematiku vyhledávání na webu, ve svém weblogu přišel před krátkou dobou ještě s jedním možným vysvětlením poklesu podílu Googlu: "Částečně to připisuji tomu, že se v jeho českých výsledcích na jaře a v létě objevovalo mnoho nečeských stránek (které neobsahují tečku českých počitadel), jednak příchodem technologie Jyxo na Seznam." Je pravda, že schopnost Jyxa nacházet na Seznamu kvalitní odkazy k dotazům se výrazně zlepšila, čímž by se dal vysvětlit i výrazný nárůst jeho podílu na přístupech.

Proměna vzorkuDruhým oblíbeným argumentem při každé změně na mapě vyhledavačů je poukaz na změnu sledovaného vzorku. Statistiky refererů nepocházejí v únoru a v listopadu ze stejné množiny webů. "Vzhledem k ne zcela povedené cenové politice ze systému Navrcholu letos odešlo hodně webů s velkou návštěvností," říká Dušan Janovský. Weby s velkou návštěvností obvykle mívají rozsáhlý archív a hlubokou strukturu obsahu.

V množině sledovaných webů Navrcholu nyní získávají větší podíl weby, které mají objem obsahu menší. Takové weby jsou snadno zmapovatelné prostřednictvím katalogů. Katalog naopak nevystihne všechen obsah rozsáhlého webu. Na webech s velkým archívem obsahu se naopak velmi dobře uchytí vyhledavače, které navíc díky citačním indexům velké a známé weby preferují jakožto hodnotnější zdroje.

Tuto teorii by mohly podpořit nárůsty podílů u mixovaných výsledků Centra a Atlasu, v nichž výsledky z fulltextu výrazně posiluje průnik s katalogem. Zároveň by toto tvrzení mohl podpořit velký nárůst přístupů z Navrcholu. Povšimněte si však, že roste podíl přístupů z fulltextu na Seznamu i z Jyxa a Zoohoo. Podíl přístupů z čistých katalogů naopak viditelně klesá. Myslím tedy, že se Dušan Janovský v tomto ohledu mýlí.

PonaučeníVěřím na sezónní vliv proměny sociodemografie uživatelů Internetu. Tedy na velký nástup

http://jakpsatweb.cz/weblog/a/1102003860-podil-vyhledavacu-bez-vetsich-zmen.html

internetových noviců. V absolutních číslech přístupy z Googlu nejspíš neklesají a dá se očekávat, že opět získá část noviců na svou stranu. Přesto jde stále jen o pětinu přístupů. Navíc je velmi pravděpodobné, že v přívětivém rozhraní Googlu vyhledávají zkušení uživatelé více a aktivněji než novicové na portálech - pro dosažení vyššího podílu odkazovačů tedy stačí menší počet uživatelů, než by odpovídalo jejich podílu.

Vyplatí se optimalizovat pro fulltextové vyhledavače, protože roste podíl odkazovačů z nich. Na druhé straně si musíme uvědomit, že především roste podíl českých portálů. A portály vydělávají především na katalogových záznamech a placených odkazech ke klíčovým slovům. Vlastní katalog, který je pro portály dražší než fulltextové vyhledávání, portály navíc prosazují i do míchaných výsledků. To znamená, že přirozené výsledky jsou odsunuté a uživatel se k nim musí doslova probojovat. Nevyplatí se proto zapomínat na katalogové záznamy a placený marketing ve vyhledavačích - zvláště dokud budou portály porušovat zákon o regulaci reklamy a nezačnou jednoznačně odlišovat placené a přirozené odkazy, jak si zákon žádá.

Pokud pomineme všechny možné rušivé vlivy, lze jen s potěšením konstatovat, že se zkvalitňují výsledky vyhledávání českých fulltextů. A to je rozhodně pozitivní zjištění. Přesto ale očekávám, že podíl českých vyhledavačů opět do jara lehce opadne, aby na podzim zase vyrostl.


Kam směřují vyhledávače?Všichni umíme používat fulltextové vyhledávače. Průměrně dvakrát položíme různé dvouslovné dotazy. Mezi výsledky (ne)najdeme odpověď podle toho, jestli jsme uhodli, jak se zeptat, nebo jestli vyhledávač uhodl, jak nám odpovědět. Připomíná to hádání z křišťálové koule. Jak se tedy hádá dnes a jak tomu bude zítra?

Možná jste zaznamenali, že se Googlu nedávno podařilo překonat krásně kulaté číslo, když rozšířil svůj index na osm miliard různých stránek. (Kdo má raděj kulatá čísla dvojkové soustavy, ať si přečte článek Dušana Janovského Skrytá změna architektury Google.) Není náhoda, že to bylo ve stejný den, kdy Microsoft zpřístupnil vylepšenou betaverzi nového vyhledávače msn Search. Ta má zatím v šuplíku pět miliard stránek, což je docela slušný pokrok v porovnání s červencovou jednou miliardou. Pro zajímavost, u obrázků jsou čísla následující: Yahoo - jedna miliard, Google - 880 milionů a msn Search 400 milionů.

Na velikosti přece nezáležíVětšina lidí ale tuší, že hlavní kouzlo vyhledávání není v počtu prohledávaných (robotem indexovaných) stránek. Pomůže při hledání málo publikovaných informací a přesných frází (třeba jména osoby, o které se potřebujeme něco dozvědět). Naopak ale může být na škodu, když zhorší relevanci odpovědí a rychlost hledání. Dnes platí, že hledání je věda. Jen ten, kdo se umí zeptat, dostane lepší sadu stránek, mezi kterými se skrývá odpověď. Jednou bude kouzlo objeveno, vyhledávače porozumí dotazu a odpovídajícím způsobem připraví odpovědi. Pak se budou umět ptát všichni – malá sci-fi vsuvka –, nebude-li ovšem sdílení vědomostí natolik kolektivní, že otázek vůbec nebude třeba.

V bližší budoucnosti se o co nejlepší výsledky, uživatele a hlavně příjmy z reklamy poperou tři hlavní soupeři. Microsoft prozatím spolupracuje s jedním ze svých budoucích konkurentů,

http://beta.search.msn.com/

http://www.jakpsatweb.cz/weblog/a/1100574240-skryta-zmena-architektury-google.html



do června 2005 by měl využívat vyhledávacích algoritmů firmy Yahoo. Ta k výsledkům přidává sponzorované odkazy zprostředkované svou dceřinou společností Overture. (Je to trošku zamotané: Yahoo podle všeho vydělává jak prodejem vyhledávací technologie, tak zobrazováním reklamních odkazů, z nichž některé si kupuje Microsoft (dále jen MS), který tak platí za svoji propagaci na vlastních stránkách.) Dominantní postavení na trhu se bude snažit udržet Google s pomocí AdWords a AdSense.

Výhrou bude ovládnutí desktopuVěřím, že MS – jako už mnohokrát – využije svého výjimečného postavení, vyhledávání začlení do Windows a získá tím velké procento uživatelů. Firmu Lookout software, která vyvíjela vyhledávací program integrovaný s MS Outlookem, koupil MS už před časem a pravděpodobně jej asimiluje do připravovaného nástroje MSN Toolbar Suite. Ten zpřístupní vyhledávání na několika místech Windows (Internet Explorer (dále jen IE), nabídka Start, Outlook). Zatím z Redmondu unikl jen popis a několik screenshotů, ale do konce roku bychom se mohli dočkat betaverze. Konkurence je o krok napřed a učí uživatele používat svoje nástroje.

Začalo to různými toolboxy pro IE, rozšířeními a integrací vyhledávání do moderních prohlížečů a pokračuje k udělátkům, jakým je Googlův Desktop search nebo blinkx. Pro počítače Apple je vyvíjen vyhledávač Spotlight, kterému usnadňuje práci existence metadat, která Mac OS X pro soubory udržuje. Představitelé Yahoo se nechali slyšet, že na desktop míří také, a koupili firmu Statalabs, která vyvíjela poštovního klienta s detekcí spamu a vyhledáváním. AOL integruje podobnou službu do webového prohlížeče, který připravuje. Zůstanou-li tyto programy pro běžné uživatele snadno použitelné, máme před sebou zajímavý souboj.

Zkoumání našich zájmů bude v pozadí této bitvy. Když necháme prohlížeče nahlížet do svého soukromí, ať už jsou to dokumenty v našem počítači, nebo pošta na freemailu, odmění se nám cílenou reklamou a lepším hledáním. Když budou vědět, že používám Linux, zohlední to, až budu hledat recenze počítačových komponent. Jak naloží se jménem mé tchýně za svobodna, si zatím nedovedu představit.

Klíčem je inovaceMezitím se bude bojovat na dalších frontách vylepšujících uživatelský prožitek (user experience). Vylepšení by měla přesvědčit i ty lidi, kteří dnes neradi hledají (lépe řečeno neradi vymýšlí dotazy), oblíbili si adresáře a stačí jim přístup k informacím klasickým procházením stránek. Některá vylepšení a nové přístupy se testují už dnes:

vyhledávání omezené podle geografického umístění, jehož oblíbenost vzrůstá se zvyšováním mobility,

personalizované hledání (slovy klasika "podle chuti každého soudruha"), např. eurekster odhaduje zájmy vaše a vašich kamarádů ("social network").

hledání nových informací ("news alert" a "new relevant pages"), k otestování na Google Alerts i u serverů s vlastním obsahem (News.com),

interaktivní hledání s kontrolou výsledků v reálném čase (jak to zkouší Orase).

Zároveň neustává boj proti "search engine spamu", který produkují SEO šílenci a změny samotných vyhledávacích algoritmů. Při výhledu do vzdálenější budoucnosti se můžeme těšit na zemětřesení, které přinese vizualizace výsledků, ovládání počítače hlasem a pokrok ve zpracování přirozeného jazyka.

http://www.orase.com/

http://news.com.com/Create+a+CNET+News.com+alert/2030-52_3-5149595.html?tag=ne.ft.si.alrt

http://www.google.com/alerts

http://home.eurekster.com/howitworks.htm

http://www.aol.com/

http://www.statalabs.com/

http://www.apple.com/macosx/tiger/spotlight.html

http://www.blinkx.com/

http://desktop.google.com/

http://www.neowin.net/comments.php?id=25605&category=main

https://www.google.com/adsense/

https://adwords.google.com/select/?hl=cs

http://www.overture.com/

Porozumění dotazuKdyž zatím není vidět hledajícím lidem do hlavy přímo, musí se přibližovat výsledky jejich zájmům oklikou přes jazyk, kterým komunikují. Výzkumu v této oblasti se věnuje i laboratoř NLP, na Fakultě informatiky MU. Nedávno mě nadchl jeden z projektů, který je testován také na vyhledávání v univerzitním Informačním systému. Dialogového systému UOI se zeptáte "Kdo učí sítě?" a dostanete odpověď. Dotazy se mohou týkat různých oblastí, od rozvrhů přes kontakty až k poště. Kvůli ochraně osobních údajů se většiny odpovědí dočkáte, jen pokud máte přístup k informačnímu systému.

V praxi si můžete povídat s vyhledávačem Ask Jeeves. Zkuste zadat "What does something mean?", "Ask Jeeves stock quote", "Address of John Smith in New York" nebo "Prague flight delays". Šikovný je seznam souvisejících dotazů, který přidává k výsledkům (třeba pro výraz "web" nabídne deset slovních spojení, mezi nimi Spider Web, World Wide Web nebo Web Hosting).

Ofenzíva portálůPřidávání hodnotného obsahu k výsledkům vyhledávání nasazují portály. AOL po dvou letech vývoje představila Snapshots. Pokud se dotaz shoduje s některým z 2,2 mil. vybraných výrazů, k výsledkům se přidají relevantní informace. Někdy jsou připraveny ručně a jindy využívají propojení s oblastí, které se věnuje některá ze sesterských „média společností“, vlastněná konglomerátem Time Warner. Jde hlavně o zábavní průmysl (desítky webů), ale i zprávy (CNN) nebo informace o firmách (burzovní zprávy, žluté stránky). Yahoo provozuje Search Shortcuts, což jsou klíčová slova, jejichž přidáním k dotazu se ve výsledcích zobrazí extra informace před běžnými výsledky hledání.

I když to není jeho záměrem, začínají lidé díky rozšiřování služeb Google vnímat jako zvláštní portál. Kromě variací zažitých služeb (Gmail, katalog) má v repertoáru i několik specialit (Answers, Groups, Alerts). Šušká se, že se chystá i na instant messaging. Zajímavé jsou nástroje a programy, které Google koupil a podporuje jejich vývoj a integraci do svých služeb (jen výčtem: Blogger, Keyhole, Picasa). Pod pokličku MS je možné nahlédnout na jejich pískovišti, kde kromě zmíněného Lookoutu je zajímavý nástroj pro komunikaci malých komunit.

A malá perlička na závěr. Ve čtvrtek uspořádal Google párty při příležitosti otevření nové vývojové kanceláře v Kirklandu. Podle různých blogů asi 20 zaměstnanců hostilo stovky lidí, z nichž snad polovina byli zaměstnanci MS, včetně těch, kteří se podílí na vývoji MSN Search. Nemají to z Redmondu daleko, jen něco přes 10 km. Proslulé pracovní prostředí, které si z části mohli během večera prohlédnout, je možná přiměje uvažovat o změně zaměstnavatele a následovat tak několik bývalých spolupracovníků. Však také místo si Google zvolil právě s ohledem na koncentraci IT odborníků – v dosahu washingtonské univerzity a nedaleko firem jako Amazon.com (vyhledávač A9) nebo RealNetworks.


Najde si nový vyhledávač Microsoftu své uživatele?Minulý čtvrtek Microsoft zpřístupnil veřejnosti ukázkovou verzi vlastní vyhledávací technologie, kterou chce konkurovat Google a Yahoo. Sliboval si, že svět ohromí velikostí databáze, ale nakonec se to mu spuštění příliš nepodařilo - jednak Google svou databázi zvětšil, druhak byl nový MSN často nedostupný. Jaký tedy je nový MSN Search?


http://a9.com/

http://sandbox.msn.com/

http://www.picasa.com/

http://www.keyhole.com/

http://www.blogger.com/

http://tools.search.yahoo.com/shortcuts/

http://www.timewarner.com/corp/

http://bluecoat.search.aol.com/bluecoat/source/html/featurespage

http://www.ask.com/

http://nlp.fi.muni.cz/projekty/uii/uii_test

http://www.fi.muni.cz/nlp/

http://www.fi.muni.cz/nlp/

Firma Microsoft již před přibližně rokem a půl dala vědět, že pracuje na vlastním vyhledávači. Na svém MSN.com dosud používá pro hledání licencovanou technologii Inktomi. Ta sice není českým uživatelům příliš známa, ale kdysi zajišťovala většinu světového fulltextového vyhledávání. Používalo ji totiž Yahoo, MSN i Hotbot.

Inktomi bylo mezitím koupené společností Yahoo a jako samostatná technologie velmi upadá, protože Yahoo dalo přednost své nové vyhledávací technologii a Inktomi pouze udržuje při životě. Tento fakt, spolu s obrovským vlivem firmy Google, přiměl Microsoft, aby začal tvořit vyhledávač vlastní.

Nejdříve - před rokem a čtvrt - začal po síti běhat pavouk MSNBot, který shromažďuje data do jejich vyhledávací databáze. Dlouho se nic nedělo, až nakonec Microsoft spustil Tech Preview svého vyhledávače a konečně minulý čtvrtek spustil i přímo betaverzi nového MSN Search.

Microsoftu (který má mimochodem 56.000 zaměstnanců) tedy trvalo vytvoření vlastního vyhledávače rok a půl, možná déle. Nyní je v beta verzi, což je v případě vyhledávače spíše začátek cesty - teď přijde pracné ladění relevance a zvyšování rychlosti. Je rok a půl málo, či hodně? Osobně mi přijde, že to obecně docela odpovídá složitosti úkolu a na "microsoftí" poměry je to poměrně rychlé. Je vidět, že Microsoft vyhledávání přikládá vysokou prioritu (neboli hodně se bojí).

Jak kvalitní je nový MSN Search?U vyhledávače se dají posuzovat v podstatě tři kritéria:

rozsah - kolik informací má ve své vyhledávací databázi, relevance - jak přesně dokáže ze své databáze vybírat odpovědi, které uživatele

uspokojí, rychlost - jak dlouho trvá nalezení odpovědi.

Tato tři "R" jsou i do jisté míry propojená. Pokud má vyhledávač příliš malou databázi, nebude pro méně obvyklé dotazy znát relevantní odpověď. Pokud má velkou databázi, sníží to jeho rychlost (tedy z pohledu využitého procesorového času, což se ale nemusí projevit v době čekání uživatele) a zároveň potřebuje chytřejší algoritmy, aby v té záplavě textů našel relevantní odpověď.

Rozsah databáze se dá zjistit relativně jednoduše, prostě si několik vyhledávačů zkusíme a zjistíme, kolik odpovědí vracejí. Pro zahraniční dotazy by to bylo:

Dotaz Google MSN Yahoo AllTheWeb Inktomimp3 196 143 82 74 17 cat 119 120 67 47 14 intel 54 30 26 16 5 qwertyuiop 34 26 31 17 6

V tabulce jsou počty výsledků, které jednotlivé vyhledávače nahlásily. Jsou vyjádřené v milionech, kromě poslední řádky, kde jde o tisíce výsledků.



Při posuzování takovýchto výsledků je nutno pamatovat na pár věcí:

dostatečný počet testovacích dotazů - čtyři je málo, chce to tak deset či více, reprezentativnost dotazů - měly by být v ideálním případě náhodně vybrané za

dohledu někoho důvěryhodného (tyto dotazy náhodně vybrané nebyly, je to prostě to, co mě narychlo napadlo),

odhady - všechny zmíněné vyhledávače poskytují pouze odhady počtu výsledků, nikoliv přesné počty,

velká čísla - milionové počty výsledků o kvalitě vyhledávače příliš neřeknou. Počet výsledků je důležitější, teprve když dotazu odpovídají jen desítky či jednotky dokumentů. Také pouze v tomto případě jdou počty ručně ověřit.

Když jsem si tedy výše uvedený test dostatečně zkritizoval a upozornil na možná rizika, i přesto si troufnu tvrdit, že Google má v tento okamžik největší zahraniční databázi, následuje MSN a Yahoo, a pak s velkým odstupem jsou upadávající AllTheWeb a Inktomi.

Rychlost mají teď všichni přibližně stejnou, i když při spuštění bylo MSN i stonásobně pomalejší nebo nevrátilo odpověď vůbec. Microsoft si docela uřízl ostudu, když prvním dojmem z nového vyhledávače bylo obvykle sledování nápisu "This site is temporarily unavailable" (tedy nedostupný).

Posuzovat relevanci objektivně také lze, ale vyžaduje to desítky reprezentativně vybraných dotazů a rozumnou metodiku, což je časově nad rámec tohoto článku. Subjektivně na mě působí trojice Google/MSN/Yahoo jako vyrovnaná, pokud jde o zahraniční vyhledávání.

Pro češtinu je MSN výrazně horší. Ta ostatně není ani mezi nabízenými jazyky pro zúžení hledání. Je zajímavé, že tam není žádný slovanský jazyk, dokonce ani velmi rozšířená ruština. Také chybí čínština, což nás ale příliš netrápí. MSN neumí ani doplňovat či odstraňovat diakritiku, podobně jako ostatní zahraniční vyhledávače.

Google odpovídáGoogleři samozřejmě předem věděli, co MSN chystá, a náležitě se na to připravili. Od přelomu října a listopadu znásobil Googlebot svoji aktivitu, a tak bylo zasvěceným docela jasné, co se děje. Microsoft pustil ukázku své nové technologie minulý čtvrtek a ve stejný den se na hlavní stránce Google.com změnilo malé číslo ze čtyř miliard na osm miliard. A nebyl to jen marketingový trik: ve stejný den se zvýšil i počet výsledků, které Google vrací. Sice v průměru jen o 50 procent (nikoliv o 100 procent), ale to může odpovídat - prostě ty dodatečné čtyři miliardy stránek nejsou tak kvalitní (informačně bohaté). Zároveň se zdá, že Google opět více uplatňuje svou "Potěmkinovu vesnici", kdy do velikosti databáze započítává i dokumenty, které stáhnuté nemá, jenom zná jejich adresu.

Nicméně i když Google zvětšil svou databázi na poslední chvíli a informuje o tom ne úplně korektně, podařilo se mu dostatečně zkazit Gatesovi slavnostní spuštění. Microsoft se mohl holedbat, že má největší databázi (což by měl, kdyby se srovnával se starou databází Google), nyní se žádným primátem chlubit nemůže.

Novinky od MicrosoftuDocela zajímavou vlastností vyhledávače je jeho "Search builder". Po kliknutí na tento nápis se objeví nad stránkou nová vrstva, kde si může uživatel naklikat i pokročilé dotazy. Je to výborné pro vzdělávání uživatelů - hned vidí, jak se jejich požadavky promítnou do

obvyklého jazyka vyhledávačů. Nejsem si ale jist, zda je to lepší přístup než obvyklejší "Pokročilé vyhledávání".

Je tam i hledání článků a obrázků. Ty obrázky jsou na MSN nově (běžná verze dostupná na search.msn.com je nemá), ale pro uživatele ostatních vyhledávačů to není nic nového - hledání obrázků je nyní víceméně povinná výbava každého portálu.

A ještě perlička na závěr: Když uživatel zadal do nového MSN v den jeho spuštění dotaz "more evil than Satan himself", co myslíte, že se objevilo na vrchu výsledků? Samozřejmě že www.microsoft.com :)


A9: ne tak docela "další Google"Před necelým měsícem byla za nemalé pozornosti odborných médií spuštěna nová verze vyhledávače od Amazonu pod názvem A9.com. Lupa samozřejmě nemůže zůstat pozadu, takže v tomto článku se o něm dozvíte několik zajímavých podrobností. Podrobnost první: O žádný vyhledávač nejde.

Nejdříve mi dovolte vysvětlit ono překvapivé sdělení z perexu. Ano, jistě, na A9.com se dá vyhledávat. Přesto si dovoluji tvrdit, že se o žádný vyhledávač nejedná. A9 bych nazval spíše vyhledávacím portálem.

Nemá totiž vlastní vyhledávací stroj, používá několik jiných, a snaží se k vyhledávání dodat přidanou hodnotu v podobě různých nadstaveb. Na vyhledávání samotné používá tyto zdroje:

Google na fulltext a obrázky. Vyhledávání v knihách na Amazon.com. Internet Movie Database pro hledání v informacích o filmech a hercích. GuruNet pro hledání v encyklopediích.

Screenshot úvodní strany

http://www.A9.com/


Výsledky hledání v jednotlivých zdrojích zobrazuje do sloupců vedle sebe. Sloupce jsou zapínatelné a vypínatelné tlačítkem na stránce. Stejně tak je možno jejich šířku měnit prostým tažením (click & drag). Celé je to realizováno pomocí Javascriptu. Ten je přitom slušně kompatibilní, všechny funkce (včetně přetahávání odkazů - viz níže) chodily i v mé Mozille na výbornou.

Screenshot výsledků vyhledávání

Ačkoli jsou výsledky přebírány z jiných zdrojů, mám k hledání několik poznámek. Například výsledek fulltextu A9 není přesnou kopií výsledku Google. Některé odkazy jsou totiž ve výsledku vynechány - nevím, jestli je to chyba, nebo úmysl (zkuste porovnat třeba výsledky dotazu "alcatel montaz handsfree").

Co se mi ale na vyhledávání nelíbí, je fakt, že A9 umí zobrazovat pouze deset odkazů na stránku, a toto není možno změnit ani v osobním nastavení. To je docela nepříjemné.

Unikátní vlastností je možnost zobrazit u každého výsledku informaci o serveru - tzv. site info. V Internet exploreru pod Windows se informace zobrazí v pop-up "bublině", v ostatních browserech je ikonka odkazem na stránku na Amazonu s informacemi o serveru: Návštěvnost, zaměření, podobné servery atd. (Mimochodem, toto site info se zjevně nedokáže vyrovnat s tím, že má některé informace v UTF-8, respektive (asi) neposílá správně encoding.)

Pro používání dalších přidaných funkcí je nutno se zaregistrovat a přihlásit. Přihlášení se uloží do cookie, která v prohlížeči zůstane i po jeho restartu. Není tedy nutné se přihlašovat pokaždé znovu, což by použitelnost celého webu silně snižovalo.

Nejviditelnější vlastností po přihlášení je historie hledání - zde jsou uložena všechna vaše hledání a můžete je kdykoli zopakovat. Přitom vám A9 označí nové výsledky. Rovněž když kliknete na odkaz, A9 si to zapamatuje, a při dalších hledáních vám vypisuje, že jste daný odkaz již navštívili.

Pokud si nainstalujete do prohlížeče (zatím jen Internet Explorer pod Windows) A9 toolbar, bude se zaznamenávat historie vašeho brouzdání po Internetu a u výsledku vyhledávání se bude ukazovat, že jste danou stránku v minulosti navštívili (i jinak než odklikem z A9).

Toto jsou pěkné funkce, jen by podle mého názoru ono označení (nový/navštívený) mohlo být výraznější. Například by mohlo být realizováno (i) barevnou ikonkou, takhle dost splývá se zbytkem údajů.

Dalšími dvěma funkcemi A9 jsou diář a záložky (bookmarks). Záložky fungují tak, jak by se od nich čekalo - výsledek hledání přetáhnete přímo na webové stránce na sloupec záložek a odkaz se přidá jako nová záložka. Je rovněž možno záložky organizovat do hierarchické struktury.

Pro použití Diáře je nutné mít nainstalovaný A9 toolbar. Pak si můžete k právě zobrazované www stránce psát poznámky. V těchto poznámkách je následně možno vyhledávat, stejně jako v záložkách a ve vaší historii.

Třešničkou na dortu je pak funkce filtru obsahu - v nastavení je možno si určit míru filtrování obsahu "pro dospělé" ve výsledcích vyhledávání - zobrazovat vše, nezobrazovat obrázky nebo "závadný obsah" nezobrazovat vůbec.

Celkově na mně A9 zapůsobil pozitivním dojmem. Rychlost vyhledávání je použitelná, možná o maličko pomalejší než Google. Změny sloupců jsou pomalé, ale za to může nejspíš Mozilla v kombinaci s mým počítačem. Rozhodně A9 zkusím používat, a uvidím, jak moc mi jeho vylepšení budou přínosná.

Osobně považuji směr, kterým se A9.com vydal, za hodný pozornosti. Bude jistě zajímavé sledovat, jak se na již tak dosti konkurenčním trhu uchytí. Rozhodně to ale není "zas další" Google.


Konečně "české googlenews"Server Nový den si za krátkou dobu vydobyl označení "české googlenews". Snadno zastíní podobné projekty portálů, přestože je výtvorem jediného muže. Nový den skutečně staví na podobných principech jako Google News: stahuje čerstvé zprávy v krátkých intervalech, sdružuje je podle témat a řadí témata a zdroje podle důležitosti.

Nouzi o služby, které přinášejí webové odkazy na články českých novin, nemáme. Internetoví trilobiti si možná vzpomenou na Trafiku, kde se shromažďovaly články z novin ještě před vznikem zpravodajských serverů, jak je známe dnes. V současné době si můžete vybrat z mnoha možností. Namátkou mě napadá Právě dnes, Volný Noviny, Novinky - Deníky, Headlines, News Centrum, Jyxo Články... Ale server srovnatelný svou kvalitou s agregátorem zpráv Google News tu chyběl. Nyní to vypadá, že by očekávání českých "googlenews" mohl splnit projekt Jiřího Lahvičky Nový den.

Většina agregátorů zpráv funguje na principu syndikace odkazů. To znamená, že v pravidelných intervalech stahují ze serverů soubory, které buď mají formát XML, nebo odvozený z CSV. Výjimku tvoří snad jen výstřižkové služby a zpravodajské agentury, které přijímají obsahy zpráv na základě smluv ve vlastním definovaném formátu - tak to funguje především u tištěných předloh. Něco mezi tím podnikají Jyxo a Centrum, které sice vycházejí z exportních souborů, ale zároveň indexují webové stránky.

http://www.lupa.cz/coop.php3?format=press

http://www.lupa.cz/rss2.php3


http://www.novyden.cz/

http://news.google.com/

http://jyxo.cz/clanky/

http://news.centrum.cz/

http://www.headlines.cz/

http://www.novinky.cz/deniky/

http://web.volny.cz/noviny/zdomova.php

http://www.pravednes.cz/

http://web.archive.org/web/19990508031734/www.trafika.cz/trafika2/


Lahvička má k exportním formátům nedůvěru, a proto se vrhnul na dekonstrukci webových stránek zpravodajských serverů. Pro nás, vyznavače sémantického webu, je to těžká rána, ale v současné chvíli Lahvičkův přístup jako jediný splňuje představu o automatickém shlukování a hierarchizaci zpráv. Z exportního souboru totiž těžko poznáte, jakou váhu zpravodajský server článku dává, kdežto podle umístění zprávy na webové stránce se již dá usuzovat, co je zpráva dne a co jen krátká noticka.

Lahvičkův robot-getter prochází stránky zpravodajských serverů, a pokud zaznamená výskyt nového článku, stáhne jej a agreguje s ostatními. Robot prochází weby jednou za pět až dvacet minut a je natolik inteligentní, že interval pružně přizpůsobuje podle toho, zda server vydává zprávy častěji nebo s delším odstupem - chová se tedy stejně jako gettery fulltextových vyhledavačů webu, jen pracuje s intervaly mnohonásobně kratšími.

Lahvička pro každý zdrojový server musel odladit extrahování textů zvlášť. To má své výhody, protože agregátory založené na fulltextových vyhledavačích indexují celou stránku, a tak pokud hledáte články ke slovu, které se často na webových stránkách vyskytuje mimo text článku, dostanete pravděpodobně naprosto irelevantní výsledky. Například články o motýlech dopadnou dobře, ale články o sovách nemá smysl hledat, protože shodou okolností je slovo sova nadužíváno jako název jednoho ze zdrojových serverů. (Problém se projeví jen při časovém řazení, které například Centrum raději neposkytuje a Michal Illich určitě bude tvrdit, že se to týká minima slov, která nikdo ve článcích nehledá - a bude mít pravdu.)

Potíž Lahvičkova přístupu je v tom, že šablony stránek se mění. Pokud by se getter dostal na tu úroveň, že by zvládl porovnávat dvě verze stránky proti sobě, mohl by se sám naučit rozeznat, která část se změnila a která zůstává stejná. Měnící se část by pak mohl zaindexovat jako článek, stabilní by mohl ignorovat a považovat za součást šablony. O důležitosti zprávy by pak mohl automat rozhodovat podle toho, v jaké vzdálenosti od začátku dokumentu se vyskytuje (zprávy nahoře), kolik textu jim je na straně věnováno (hlavní zpráva bude mít delší upoutávku), a podle zanoření (zprávy z titulní strany jsou nejzajímavější).

Nový den nyní monitoruje necelé dvě desítky zdrojů. Naproti tomu Google agreguje zpravodajství z tisíců webů. Google má tedy větší možnost rozhodovat se, která z událostí je důležitější i podle toho, kolik článků je jí věnováno. Google News ale musejí mnohem více spoléhat na algoritmizaci a automatizaci agregování.

Při shlukování zpráv v podobně zaměřeném projektu Přehled.net, který má na svědomí Patrick Zandl, se používá konkordance. Předpokládám, že stejný princip zvolil i Lahvička v Novém dni a nejspíš tak fungují i Google News. V podstatě jde o to, že se k seznamu slov připisují odkazy na texty, v nichž se vyskytují. Čím více mají texty společných slov, tím pravděpodobnější je, že pojednávají o stejné události. U novinových zpráv stačí porovnat třeba jen nadpisy a první odstavce.

Při konkordanci se obvykle vynechávají slova, která nenesou význam (stop words). Bez použití tezauru je možné vytvářet slovník postupně ze slov extrahovaných ze zpráv. Vynechávají se krátká slova (předložky, spojky, zájmena patří mezi obvykle krátká slova, průměrné české slovo má mezi pěti a šesti znaky). V češtině je vhodné počítat i se slovníkem synonym a morfologickými pravidly (skloňování, časování, stupňování, ...).

Shlukování tematicky podobných zpráv se na Novém dni povedlo. Lahvička se dokonce celkem úspěšně snaží odhalovat duplicitní obsah. Nový den je s to rozeznat, že Lidovky,

http://www.novyden.cz/r/?17223

http://vseved.cz/utf/web/search.php?odstr=tezaurus

http://www.google.com/search?q=define%3Astop+words

http://vseved.cz/utf/web/search.php?odstr=konkordance

http://www.prehled.net/

http://jyxo.cz/s?s=sova&d=ar&sort=0

http://jyxo.cz/s?s=mot%FDl&d=ar&sort=0

iHNed a Atlas převzaly zprávu o radiolokátoru ze servisu ČTK (ať už to Lahvička dělá porovnáním dokumentů, vysokou vzájemnou konkordancí nebo rozeznáním domicilu či podpisu autora). Naopak u zprávy o prvním letu soukromé rakety do vesmíru Nový den rozeznal, že v případě Atlasu, Tiscali a BBC jde pokaždé o jinou zprávu k témuž tématu.

Nový den zvládá zprávy najít a sloučit, ale Google News předkládají čtenáři z klubka zpráv na stejné téma přednostně odkaz na váženější médium. Předpokládá se totiž, že Washington Post má o volbách prezidenta zajímavější zprávy nežli třeba Minneapolis Star Tribune. Většina českých agregátorů zprávy nijak nehierarchizuje. Volný Noviny zprávy prostě řadí za sebou podle toho, jak je načetl. Headlines, Jyxo , Právě dnes a Novinky - Deníky zprávy rozdělí podle zdroje. News Centrum ovšem vybere z každé rubriky deset zpráv na titulní stranu a tři z nich zvýrazní.

Vyhledavače by pro hierarchizaci zpráv mohly využít váhu zpětných odkazů. Ať už cosi jako pagerank titulní strany média, nebo popularitu odkazů á la nejomílanější zprávy. V českém jazyce ale bohužel není tolik citujících blogů, proto řazení podle popularity zdroje nelze uplatnit. Při počtu zpravodajských webů a jejich zaměření by zase došlo k tomu, že při řazení dle pageranku by byl na prvním místě opakovaně týž zdroj.

Pánové Lahvička i Zandl svorně přiznávají, že zvolili zásah deus ex machina a nastavili zdrojům důležitost podle vlastního úsudku. Totéž se, myslím, stalo na News Centrum, protože na předních místech se běžně obměňuje táž množina serverů. Při malém počtu českých zdrojů je to zřetelnější než na Google News, kde lidský zásah nejspíš zvolili při ohodnocení zdrojů také.

Oproti Google News má zatím Nový den dvě nevýhody. Malý záběr daný omezením na čtyři rubriky (kde jsou technologie, bulvár, místní zprávy...) a minimum zdrojů (necelých dvacet na Novém dni proti třem stovkám na Právě dnes a třem tisícům v Google News). Druhou nevýhodou je absence prohledávatelného archívu - v každé rubrice je jen třináct aktuálních témat. I tak je ale překvapivé, že jeden nadšenec vytvořil tak zajímavou službu ve srovnání se snažením firem, jako jsou NetCentrum, Jyxo nebo Anneca.


Vyhledávání aktuálních zprávObracíme se na web s očekáváním lepší informovanosti pokaždé, když světem nebo naším okolím pohne nějaká událost. Jakou ale máme šanci opravdu se k informacím dostat? Pokud neznáme zdroj, tak mizivou. Katalogy a vyhledavače portálů na okamžité informace nejsou stavěné. Nezbývá, než obrátit se na specializované vyhledavače.

Kdykoli se pozornost světa upře k aktuální události, obracejí se uživatelé Internetu na vyhledavače, aby o ní našli co nejvíce informací. Lhostejno, jedná-li se o teroristické útoky v New Yorku, nebo povodně v Čechách, lidé automaticky předpokládají, že vyhledavač jim najde odkazy na nejlépe informované zdroje. Není to vždy dobrý nápad.

Hledat aktuální události v katalogu a fulltextu nemá smyslBoje v Iráku zuří už čtvrtým dnem, ale výsledky vyhledávání fráze válka v iráku na Seznamu, Atlasu, Centru ani Klikni tomu stále ještě nenasvědčují. Zcela výjimečně se na první straně výpisu objeví aktuální informace. Seznam rozumně okamžitě přidal speciální kategorii do

http://fulltext.idnes.cz/search.php?s=valka%20v%20iraku

http://search.centrum.cz/katalog/search.php?q=valka+v+iraku&sec=mix

http://www.atlas.cz/search.asp?searchtext=valka+v+iraku

http://search.seznam.cz/search.cgi?w=valka+v+iraku&mod=l-s-p


http://vseved.cz/utf/web/search.php?odstr=deus%20ex%20machina

http://www.elka.cz/denik/nazor.php?ide=132244&nick=kybersmok&title=Nov%FD%20den%20a%20slabiny%20%E8esk%FDch%20zpravodajsk%FDch%20server%F9&backlink=http://blog.vozovna.cz/2004-06.html%23132244&razeni=nove_dolu

http://www.technorati.com/cosmos/currentevents.html




http://vseved.cz/utf/web/search.php?odstr=domicil




katalogu a zařadil do svůj speciál z Novinek, ale pak už se do výsledků vměstnali jen pohotoví webmasteři, kteří pochopili, že musí své válečné stránky zaregistrovat do katalogu sami, protože to za ně nikdo neudělá.

Na všech českých portálech je situace obdobná. Důvod je nasnadě: primárním zdrojem pro vyhledávání jsou katalogy odkazů. Ty fungují podobně jako zlaté stránky - co si do "inzerátu" sami nenapíšete, to tam nikdo nenajde. Má tedy smysl hledat v katalogu zpravodajství, ale už nikoli klíčová slova aktuálních informací. Při zájmu o válku v Iráku z katalogu dostanete především informace o té, kterou vedl Bush starší.

Ani s fulltextovými vyhledavači, jejichž roboti procházejí web sami a umožňují tak hledat výrazy, které se vyskytují přímo na stránkách, na tom z hlediska aktuálních informací nejsou lépe. Platí to i pro oslavované Jyxo. Příčinou je dlouhý interval mezi doplňováním indexů pro vyhledávání. Moderní fulltexty se sice snaží rozeznat zpravodajské servery (spíše často aktualizované stránky), ale ty jim nevycházejí příliš vstříc - například na iDnes jejich postup zarazí instrukce v hlavičce noindex, follow, která robotu sice dovolí webem procházet, ale nesmí si jeho obsah ukládat.

I v relativně příznivém případě, kdy si fulltextový vyhledavač doplňuje index často a je schopen rozeznat zpravodajské weby, vlivem hodnotících hledisek, která s prosazováním aktuálních informací nepočítají, dochází k tomu, že ve výsledcích jsou upřednostněny odkazy, které neodpovídají nejlépe informovaným zpravodajským a publicistickým zdrojům.

Nejlepším řešením při hledání aktuálních informací je zamířit rovnou na zpravodajský server. Návštěvník portálu by neměl o opravdu nejdůležitější zprávy přijít, protože všechny je výrazně inzerují už na domovské straně, takže na deziluzi z vyhledávání ani nedojde. Co si ovšem počít, pokud hledáme aktuální informaci nižší společenské závažnosti? Například v současné době oficiální seznamy agentů StB?

Pomohou s hledáním blogy? V anglicky hovořící části Internetu bychom se mohli obrátit na blogy, respektive na některý ze systémů sledování odkazů napříč blogy. Už ve článcích Marka Prokopa byly zmiňovány služby jako Blogdex, Popdex, Daypop, Organica nebo Cosmos. Jak nám mohou pomoci při vyhledávání aktuálních informací? Zvláště v případě, kdy je o události k dispozici informací více, hodil by se nám nějaký způsob pro klasifikaci významu jednotlivých zdrojů. Právě s touto veličinou můžeme ve službách sledujících blogy počítat.

Pokud chceme najít významný zdroj informací (řekněme zpravodajský server s vysokým renomé), pak se můžeme spolehnout na to, že k němu povede mnoho odkazů. Pokud tedy necháme vyhledat frázi a posléze zjistíme, kolik odkazů celkem na daný zdroj vede (ať už přímo stránku nebo server jako celek), získáme jakousi "hitparádu" zpravodajských serverů. Týž princip můžeme použít i na nezpravodajské případy. Tahle metoda sama o sobě nestačí. Mohli bychom s ní skončit na stejných výsledcích jako u fulltextových vyhledavačů.

Potřebujeme nějakým způsobem zohlednit aktuálnost informací. K tomu může posloužit sledování nárůstu počtu odkazů na obsah ve zvoleném čase. Takto budeme moci vysledovat odkazy i na informace, které byly aktuální v nějakém okamžiku v historii. Nejlepší výsledky tato metoda poskytuje u zdrojů, které nejsou masivně odkazovány a zazáří právě v souvislosti s nějakou událostí, proto je tu vhodné sledovat odkazy přímé, nikoli odkazy na server jako celek.

http://www.technorati.com/cosmos/index.html

http://organica.us/

http://www.daypop.com/

http://www.popdex.com/

http://blogdex.media.mit.edu/

http://jyxo.cz/search.php?s=valka+v+iraku&stem=1&d=cz&wwho=

Dovedeno do důsledků: sledováním velkých nárůstů odkazů bychom mohli aktuální události zásadní povahy odhalovat dokonce strojově. O to se velmi úspěšně pokouší právě Cosmos, kde můžete sledovat nejdůležitější události podle hustoty odkazování z blogů za poslední tři hodiny. Předpokladem pro aplikaci těchto metod je ovšem velká základna blogů, a tu bohužel pro události z pohledu obyvatele České republiky nemáme. Přesto poskytují blogy zajímavý způsob reflexe světa alespoň z pohledu západu severní polokoule.

Východiskem je specializovaný vyhledavač na zprávy Východiskem by byl specializovaný vyhledavač na zprávy. Takový provozuje třeba Google, který zvládá i seskupování zpráv o téže události. Ovšem nemáme tu možnost stanovit si, od kdy do kdy nás události zajímají, a problém je také v tom, že zde nenajdeme zprávy české. Pokud ale opravdu chcete srovnávat české zpravodajské zdroje, můžete se s důvěrou obrátit na server Právě dnes, který sice neumí výsledky vyhledávání kategorizovat tak jako Google a neumí ani omezit časový úsek, ale disponuje dostatečným počtem českých zdrojů, takže při vhodně položeném dotazu informace dostanete.


Hrozba ukrytá v GoogluGoogle - čím víc ho milují uživatelé, tím víc vrásek přidělává majitelům menších firem. Fulltextové vyhledávání na Webu se stává jedním z nejvýznamnějších marketingových prostředků a Google na něj má již téměř monopol. Monopol sice sympatický, neboť je dosažen skutečnou kvalitou, avšak stejně nebezpečný jako jakýkoli jiný.

Malým firmám skýtá Web mimořádné možnosti. S minimálními náklady lze jeho prostřednictvím velmi účinně oslovit obrovské množství potenciálních zákazníků po celém světě. Má to však jeden háček. Zákazníci musí na web odněkud přijít a ono "odněkud" už dnes až ze tří čtvrtin, alespoň pro anglicky psané stránky, znamená z Googlu.

Pro laika, který se chystá právě otevřít svou webovou prezentaci, zde na první pohled není žádný problém. V Googlu se přeci stačí zaregistrovat a nejenom v Googlu - mnoho firem nabízí registraci do stovek vyhledavačů a katalogů za pár set korun. Zkušenější se teď sice usmívají pod vousy, neboť vědí, že tato představa je naivní a že smysl má jen kvalitní optimalizace pro vyhledavače, jenže právě zde leží největší nebezpečí monopolu Googlu.

Odhlédněme nyní od skutečnosti, že důsledná optimalizace stránek pro vyhledavače nemusí být právě levná, a představme si web, který je již na špici výsledků vyhledávání pro všechna relevantní klíčová slova. Co lepšího by si mohl majitel takového přát? Zeptejme se ale jinak: do jaké nebezpečné situace by se mohl dostat?

Nacházejí-li se anglicky psané stránky pro svá hlavní klíčová slova mezi prvními deseti výsledky vyhledávání v Googlu, je velmi pravděpodobné, že na ně okolo 70 procent návštěvníků přijde právě z Googlu. Dále při ideální optimalizaci platí, že se jedná o návštěvníky velmi dobře cílené, dosahující nadprůměrný konverzní poměr. Není výjimkou, jestliže takto získaní zákazníci pak v absolutních číslech pokryjí přes polovinu kapacity výroby či služeb menší firmy.

Nastíněný obrázek stále vypadá lákavě, ovšem až do chvíle, kdy si uvědomíme, že více než polovina tržeb firmy pochází ve skutečnosti z jediného zdroje. Kdyby se jednalo o zdroj velmi


http://www.pravednes.cz/my/fulltext.jsp?expressions=valka+v+iraku

http://news.google.com/news?hl=en&q=war+on+iraq

http://www.technorati.com/cosmos/currentevents.html

spolehlivý, budiž, jenže Google dvakrát spolehlivý zrovna není. Jeden den můžete být ve výsledcích vyhledávání první a dostávat desítky objednávek denně, druhý den se probudíte a nové objednávky nikde. Když se neobjeví ani druhý den, zkusíte Google a ten se tváří, že vás vůbec nezná.

Bohužel se nejedná o hypotetickou hrozbu. Do výše popsané situace se dostává čím dál víc firem. Jeden příklad za všechny popisuje Stefanie Olsenová v článku The Google gods (CNET.com, 31. října 2002):

"Patrick Ahern může dosvědčit jak silný potenciál Googlu, tak tíži podnikání bez něj. Společnost Data Recovery Group, kterou řídí, se minulý rok umísťovala okolo čtvrtého místa v populárním vyhledavači Googlu. V lednu, kdy Google bez vysvětlení společnost z databáze vyřadil, postihl Data Racovery 30procentní propad tržeb."

Jak článek dále uvádí, celková návštěvnost webu Data Recovery Group se vypadnutím z Googlu snížila o 85 procent a společnost musela tuto ztrátu valnou část roku kompenzovat placenými odkazy v PPC vyhledavači Overture v objemu několika tisíc dolarů měsíčně.

Ahernův případ není zdaleka jediný. V jednom z největších diskusních fór o optimalizaci stránek pro Google na WebmasterWorld.com nemine týden, aby několik nešťastníků neshánělo rady, jak dostat zpět web, který náhle vypadl z databáze Googlu, nebo se dramaticky propadla jeho pozice ve výsledcích vyhledávání.

Čím jsou tyto propady způsobeny? Zmizí-li nějaké stránky z databáze Googlu zcela, na vině je zpravidla chyba jejich majitele a následná penalizace ze strany Googlu. Google má totiž poměrně přísná měřítka a pojme-li podezření, že majitel stránek chce získat lepší pozici nefér způsobem, tvrdě zakročí.

Nepříjemné ovšem je, že samotný majitel stránek v tom může být nevině. Jeho chyba je pouze v tom, že si vybral špatného webmastera nebo neseriózního konzultanta na optimalizaci webu pro vyhledavače. Problém může nastat i tehdy, pokud je server, na kterém jsou stránky umístěny, po určitou dobu nepřístupný. To opět nebývá přímá vina majitele stránek, nýbrž webhostingové společnosti.

Jsou ale i případy významné ztráty pozice ve výsledcích vyhledávání, které majitel stránek nemůže ovlivnit žádným způsobem. Pozice každé stránky v Googlu totiž silně závisí na tzv. PageRanku, který je určován množstvím a kvalitou zpětných odkazů z jiných stránek. Pokud jsou pak z cizích stránek zpětné odkazy odstraněny, tyto stránky zaniknou, nebo byly sami Googlem penalizovány, záhy se to negativně projeví i tam, kam z nich odkazy původně mířily. Kromě toho i sám Google často mění své algoritmy hodnocení stránek a relevance dotazů, což je zdrojem další nestability výsledků.

Existuje nějaká obrana proti tomu, aby se stránky staly hříčkou v rukou Googlu? Kdyby Google neměl natolik dominantní postavení, byla by rada snadná. Stačilo by rovnoměrně optimalizovat stránky pro různé vyhledavače. Za současné situace ale tato cesta není možná. Jedinou alternativou proto je jistit firmu alespoň jedním dalším webem, který může rychle kompenzovat případný výpadek. Zároveň je ale nutné věnovat optimalizaci pro vyhledavače dlouhodobou pozornost a vyvarovat se všeho, co by Google mohl penalizovat.

http://news.com.com/2102-1023-963618.html

Možná si řeknete, že české podnikatele tento problém zatím příliš netrápí. Vždyť české weby si o 80% návštěvnosti z Googlu mohou nechat jen zdát. Přesto není radno rizika monopolního postavení Googlu podceňovat. Jednak jsou i mezi českými podnikateli exportéři, kteří na Googlu začínají být silně závislí a jednak i u nás bude podíl využívání fulltextových vyhledavačů stoupat úměrně s počtem stránek na českém internetu. Nakonec zde může někdy získat monopolní postavení i jiný zdroj návštěvnosti, rizika s nim spojená však budou stejná.


Lesk a bída českých vyhledavačůV oblasti fulltextových vyhledavačů došlo během krátké doby na českém Internetu hned k několika velkým změnám. Nejprve si několik portálů vybralo jako nové řešení Empyreum, posléze se objevil téměř nový WebFast, a nakonec ještě skutečně nový WebSeek. Jedná se pouze o nepodstatné změny, či zároveň dochází k posunu v kvalitě?

Když jsem v létě psal svou případovou ministudii o optimalizaci stránek pro české vyhledavače, vypadala scéna zcela jinak než dnes. Atlas měl ještě svůj vlastní fulltext, Redbox používal Google i na český Internet, WebFast a WebSeek neexistovaly, Empyreum skoro nikdo neznal.

Od té doby se mnohé změnilo. Atlas, RedBox, Klikni a Uzdroje začaly používat Empyreum, Centrum osamostatnilo svůj vyhledavač pod značkou WebFast a objevil se nový WebSeek a Tiscali. Od Atlasu se oddělil MSN, který používá svůj vlastní vyhledavač. Otázka je, zda se tím život hledajících uživatelů stal snazším.

Stejně jako jinde ve světě, i u nás se na poli vyhledavačů uplatňují dva základní obchodní modely. První je založen na vlastním provozování vyhledavače jako služby pro koncové návštěvníky. Druhý se naopak soustřeďuje na vyhledavač jako technologii, kterou lze pronajímat jiným serverům.

První případ u nás reprezentují hlavně zavedené portály, které si již dříve vlastní vyhledavač vyvinuly. Z těch nejvýznamnějších se jedná o Centrum (WebFast), Seznam (Kompas) a Tiscali. Do druhého tábora patří především vyhledavač Empyreum, který poskytuje své služby Atlasu, RedBoxu, Klikni a Uzdroje, a Megatext, který je používán na portálu Quick.

Nástup "technologicky orientovaných" vyhledavačů je pro uživatele jasné plus. Tento obchodní model si totiž nepotrpí na obsahově přetížené weby plné reklam, a tak se dnes můžeme těšit ze strohé jednoduchosti a rychlosti WebFastu (ve skutečnosti stejný stroj, jako na Centru, ovšem bez všeho balastu, včetně reklam, okolo) či WebSeeku. Jak jsme ale na tom se samotnou kvalitou vyhledávání?

Určit kvalitu vyhledavačů není jednoduché. Existuje několik základních kriterií, která se obtížně vyhodnocují, neboť vyhledavače sami se o svých výsledcích a parametrech příliš nešíří. Navíc vzájemné váhy těchto kritérií v celkovém hodnocení nejsou zcela jednoznačné a závisí od úhlu pohledu. Zkusme se na jednotlivá kritéria podívat podrobněji.

Rychlost vyhledávání Rychlost vyhledávání, tj. čas potřebný k nalezení odpovědi, je dnes již kritériem prakticky bezvýznamným. Všechny české vyhledavače mohou směle parafrázovat známého výrobce

http://www.quick.cz/

http://www.megatext.cz/

http://www.msn.cz/

http://www.tiscali.cz/

http://www.centrum.cz/

http://www.uzdroje.cz/

http://klikni.idnes.cz/

http://www.empyreum.cz/

http://www.webseek.cz/

http://www.webfast.cz/


http://www.redbox.cz/

http://www.atlas.cz/

http://interval.cz/r-article.asp?id=727

http://interval.cz/r-article.asp?id=727


luxusních automobilů a svůj výkon deklarovat jako "dostatečný". Toto kritérium nám tedy v hodnocení kvality moc nepomůže.

Rychlost aktualizace indexu S rychlostí a pravidelností, jakou vyhledavače aktualizují svou databázi, je tomu však již jinak. Jednak se jedná o kritérium velmi významné, a jednak jsou v něm mezi jednotlivými vyhledavači značné rozdíly.

Asi nejhůře je na tom v tomto ohledu Seznam, který, jak se zdá, provedl poslední aktualizaci své fulltextové databáze někdy letos v červnu. Mnoho stránek, které zde najdete, tedy dnes vypadá jinak, zadaná klíčová slova už třeba vůbec neobsahují a někdy dokonce vůbec neexistují.

V aktuálnosti databáze naopak exceluje Empyreum, které dokáže samo nalézt nové stránky a reagovat na změny existujicích přibližně během týdne, maximálně dvou. Pod jeden měsíc se ještě vejde WebSeek, s přibližně měsíční periodou aktualizací pracuje WebFast (Centrum).

Rozsah databáze Rozsah databáze, neboli počet indexovaných stránek, je poněkud sporné kritérium. Zejména portály se rádi chlubí tím, kolik stránek mají ve svém indexu, jenže metodika určení se zpravidla liší a mezi jednotlivými servery je obtížně srovnatelná.

Navíc se z praktického hlediska jedná o kritérium méně podstatné. Uživatelé mívají spíše problém, jak si z mnoha odpovědí na svůj dotaz vybrat, než aby si stěžovali na jejich malý počet. Malý rozsah databáze lze tedy vytknout snad jen nováčkovi na trhu, vyhledavači WebSeek.

Relevance odpovědí Na závěr jsem si schválně nechal kritérium nejzávažnější a nejobtížněji vyhodnotitelné. Pokud vyhledavač disponuje rozumně rozsáhlou a přiměřeně aktuální databází, je relevance odpovědí tím, co uživatele zajímá nejvíce. Typický uživatel vyhledavače totiž obvykle projde a vyzkouší pouze první dvě až tři stránky výsledků, tedy maximálně 30 odpovědí. Není-li v nich, co hledal, těžko bude s vyhledavačem spokojen.

Proti vyhledavačům (a v důsledku i proti jejich uživatelům) však většinou stojí majitelé webů, kteří si přejí dostat své stránky ve výsledcích co nejvýše, relevance nerelevance. Vyhledavače proto nesmí vycházet jen z triviálních kritérií, jako je počet slov či obsah metatagu keywords, ale musí indexované stránky hodnotit komplexněji.

O mnoho délek v soutěži relevance prohrává Quick. Ten by si snad dokonce zasloužil v této disciplíně diskvalifikaci, neboť nad jeho výsledky někdy zůstává rozum stát. Posuďte sami např. odpověď na dotaz "podnikání na webu", kde na druhé a třetí pozici naleznete tutéž stránku, na kterou se právě díváte. Quick se tedy do výsledků hledání nerozpakuje zahrnout své vlastní výsledky hledání, často namíchané s výsledky hledání jiných hledačů a katalogů. Zároveň výsledky třídí mechanicky podle počtu slov na stránce. Proto právě první tři stránky odpovědí bývají v Quicku ty nejméně použitelné.

Typickou bolestí českých vyhledavačů je jejich důvěřivost. K tomu, abyste ošidili například Seznam, nemusíte být zrovna odborníkem na optimalizace pro vyhledavače. Typickým

http://ftxt.quick.cz/mtx/find.isa?query=podnik%C3%A1n%C3%AD%20na%20webu&count=15&template=sq

příkladem je odpověď na dotaz "nokia" -- na páté a šesté pozici naleznete odkaz na stránky Faktor-Light, slovo "nokia" byste však na nich hledali marně. Ovšem jen do okamžiku, kdy si prohlédnete zdrojový kód a zjistíte, že se vyskytuje vždy dvakrát v metatagu keywords a description, a navíc ještě černým písmem na černém pozadí dole na stránce spolu s asi stovkou dalších slov.

Jedná se o starý trik, který u renomovaných zahraničních vyhledavačů fungoval naposledy před několika lety. Dnes ho naopak tvrdě penalizují. V Googlu proto tuto stránku na stejný dotaz (omezený pro doménu .cz) nenajdete ani mezi prvními dvěma sty odkazy.

Nicméně i ostatní české vyhledavače v rozporu se světovým trendem stále zřetelně preferují výskyt klíčových slov uvnitř metatagů keywords a description oproti výskytu jinde v textu. Až roztomile to působí u Empyrea, které navíc evidentně hodnotí hustotu klíčových slov na stránce a díky tomu často ve výsledcích preferuje samotné framsety s dostatečně malým počtem slov v keywords, description a v titulku stránky (tag title), před stránkami se skutečným, na klíčová slova mnohem bohatším obsahem.

Abych však Empyreu nekřivdil, co se relevance odpovědí týče, patří u nás ke špičce a blíží se úrovni obvyklé u zahraničních vyhledavačů, což lze ověřit porovnáním jeho výsledků třeba s Googlem, který představuje fulltext nejmodernější, tematicky orientované koncepce relevance rankingu s vysokým důrazem na měření kvality indexovaných stránek.

Shrnutí Pokud bych měl značně subjektivně shrnout výsledky jednotlivých vyhledavačů podle jednotlivých kritérií a sestavit pomyslný žebříček kvality, na jeho čele by se umístilo právě Empyreum s plným počtem bodů za relevanci odpovědí a aktuálnost databáze. V těsném závěsu by následoval WebFast (Centrum), který ztrácí body za pomalejší aktualizaci. Peleton by naopak uzavíral Seznam s minimem bodů za relevanci a nulou za aktuálnost a Quick, jehož výsledky jsou prakticky nepoužitelné kvůli balastu z ostatních vyhledavačů a katalogů.

Zdá se, že je tedy dobře, když se k Empyreu přiklonila většina českých portálů. Přesto považuji za škodu, že RedBox k Empyreu přešel od Googlu, který relevancí výsledků stále předčí Empyreum o tolik, že tím kompenzuje i o něco menší aktuálnost a menší rozsah databáze pro stránky v doméně .cz.

Velmi slušnými výsledky mne překvapil WebSeek, který by si určitě zasloužil větší popularitu jak u koncových uživatelů, tak u portálů.


Vyhledavače a jejich velká hraZa poslední půlrok se na poli světových vyhledavačů, jako je například Google, FAST, Inktomi či Overture, odehrálo doslova zemětřesení. Firmy měnily svou strategii, navazovaly nová partnerství, kupovaly jedna druhou nebo prostě zkrachovaly. Pojďme se podívat na současnou situaci, včetně konkrétních čísel o návštěvnosti a penězích.

Ty tam jsou doby, kdy provozovatelé portálů vytvářeli svůj vlastní obsah. Současné světové portály jsou jakousi obrovskou skládačkou - vyhledávací technologie téměř vždy dodávají externí firmy specializované na konkrétní činnost.


http://www.faktor-light.cz/

http://search.seznam.cz/search.cgi?w=nokia&min=l-s-c-k&mod=k&step=25

Pro většinu čtenářů to bude opakování známého, ale na úvod je třeba rozlišit tři základní typy vyhledávání:

katalog - Lidmi utříděné a popsané odkazy uspořádané do stromu podle témat. fulltext - Hledání v celém textu stránek, které jsou robotem sesbírány z Internetu. PPC - Textové reklamy, které jsou ukazované vždy na určitý vyhledávací dotaz.

Inzerent platí za odkliknutí - odtud název PayPerClick.

Pravidla hry Prvním a posledním pravidlem, kterým se všichni světoví hráči (portály, vyhledavače i PPC systémy) řídí, je maximalizace zisku. Některé z firem - Overture a Yahoo! - to hlásají jako svou filosofii, jiné raději mluví o službě veřejnosti či vyhledávacím zážitku a pouze v nestřeženém momentu přiznají, že jejich prioritou je ziskovost.

Příjem portálu se dá vyjádřit jako počet uživatelů krát průměrný příjem na uživatele. Portál se tak může vydat dvěma extrémními cestami - usilovat o co největší návštěvnost, nebo každého uživatele co nejlépe zpeněžit. Problém je, že obojí najednou příliš realizovat nejde - pokud to portál s reklamami a placenými službami přežene, uživatelé mu utečou.

Jak to tedy chodí? Portál obvykle vyhledávací služby nakupuje, tedy uzavře smlouvu s firmou vyvíjející vyhledávací technologii - v zahraničí například od Google, Inktomi nebo FAST. Podepíše ale také smlouvu s nějakým PPC systémem (Overture, eSpotting, Findwhat). Na svých stránkách pak prezentuje nejdříve placené odkazy a pak teprve neplacené (rozdíl je vždy více či méně zřetelně označen). Placené textové odkazy jsou v současnosti cestou, kterou portál získává největší díl příjmů (a zároveň jsou uživateli přijímány pouze s malým odporem).

Hráči Existují "uživatelské destinace" (obvykle portály), tedy místa, kam chodí uživatelé, a pak také firmy, které vytvářejí technologie. Toto mohou být tytéž subjekty, ale často nemusí. Kdysi mělo prostě Yahoo! svůj katalog, Altavista svůj fulltext a Overture (tehdy Goto) svůj PPC vyhledavač. Uživatelé chodili na web jednoho z nich a užívali jejich nabídek. V následujících letech ale nastal velký kolotoč, služby jednoho začal používat druhý, a postupem času se ukázalo, že takové partnerství je ku prospěchu všech zúčastněných. Stal se z toho v podstatě standard a dnes už prakticky neexistuje portál, který by neintegroval všechny tři prvky - PPC, katalog i fulltext. Často se tak objevují i portály, které nemají žádnou vlastní technologii, a přesto docela obstojně fungují - např. MyWay, Lycos, Netcape, donedávna i iWon.

Jak provozovatele portálů (destinace), tak i tvůrce vyhledávacích technologií budeme nazývat "hráči" a představíme si ty nejvýznamnější:

Yahoo - původně katalog, nyní provozovatel portálu s širokým záběrem - vyhledávání, email, zpravodajství, finance, hry...

Google - provozovatel reklamního systému Google Adwords a fulltextového vyhledavače, který si získal masovou oblibu.

Overture - největší PPC systém. FAST - tvůrce fulltextového vyhledavače, v některých ohledech lepšího než Google, a

datových vyhledavačů pro firmy. MSN - divize Microsoftu provozující portál MSN.com. Ten je poměrně navštěvovaný,

protože je nastaven jako domovská stránka prohlížeče MSIE.

Teoma - vyhledavač pracující na principu "autorit a rozcestníků", což je technika fungující podobně jako Google PageRank, ale vždy pro určité téma, dané uživatelským dotazem - to zaručuje přesnější výsledky.

Wisenut - vyhledavač, který při svém spuštění dělal velké vlny, ale nic z toho pak nebylo. Nicméně byl za 9 milionů dolarů koupen jiným významným hráčem, a tak o něm ještě uslyšíme.

AskJeeves - vyhledavač snažící se odpovídat na otázky položené v přirozeném jazyce. U nás téměř neznámý, ale hodně oblíbený mezi Američany.

AOL - provozovatel internetového připojení, vlastního "prohlížeče" a portálu. Spojen s Time Warner do obrovského mediálního kolosu.

Looksmart - katalog, který byl používán na velkém množství portálů. Nyní pomalu skomírající.

O tom, co tito hráči v poslední době prováděli - kdo s kým a za kolik spolupracuje, a kdo koho koupil, bude celý příští článek.

Figurky Každý hráč má dvě základní hodnoty, na kterých může stavět - své návštěvníky a své peníze. Někteří mají jedno, jiní to druhé, další obojí. Zhruba sice platí jakási přímá úměra mezi počtem návštěvníků a příjmy firmy, ale nemusí tomu tak být - Inktomi třeba nikdy žádné návštěvníky nemělo (a málokdo jej zná) a přesto je obchodně velmi úspěšné. Projektů, které mají mnoho návštěvníků bez nejmenšího komerčního potenciálu, znáte jistě také dost.

Na závěr se podívejme na konkrétní čísla o návštěvnosti. Následující tabulka udává výsledky měření provedeného firmou Nielsen/NetRatings (via SearchEngineWatch). Jde o miliony hodin strávených vyhledáváním, tak jak to bylo změřeno na základě sledování chování vzorku 60 tisíc amerických uživatelů.

Web Doba

Google 18,7

AOL 15,5

Yahoo 7,1

MSN 5,4

AskJeeves 2,3

InfoSpace 1,1

Altavista 0,8

Overture 0,8

Netscape 0,7

Za povšimnutí stojí hlavně dominance Google. Uvažte, že jeho vyhledavač je používán i u druhého AOL a třetího Yahoo!. Měření prováděná jinými metodami u něj udávají o trochu nižší hodnoty, ale přesto má výrazně nadpoloviční podíl celosvětového vyhledávání.

Finanční výsledky jednotlivých společností jsou neméně důležité - většina velkých zahraničních firem je uvádí v ročních a čtvrtletních zprávách. Z nich jsem sestavil níže uvedenou tabulku udávající jejich výnos a zisk. U Google jde o neoficiální informace. U

http://searchenginewatch.com/reports/netratings.html

MSN se jedná o příjem této divize Microsoftu jen za druhou půlku roku 2002 - zisk / ztráta nebyla ve zprávách, které jsem našel, uvedena, ale tato divize je dlouhodobě ztrátová.

Firma Výnos ($) Zisk ($)

MSN 886 mil. ztráta

Yahoo 953 mil. 43 mil.

Overture 667 mil. 73 mil.

Google 300 mil. 100 mil.

AskJeeves 74 mil. -21 mil.

FAST 45 mil. 1 mil.

To je pro dnešek vše - v druhé části tohoto článku se budeme zabývat konkrétními případy - dozvíte se něco o velkých změnách, které se nedávno odehrály - třeba o tom, jak Yahoo! koupilo Inktomi a Overture Altavistu, a o velkém boji s Googlem, na který se tímto přichystali.


Nové trendy ve vyhledáváníV dávných dobách Internetu fulltextové vyhledavače neexistovaly - uživatelé se pohybovali po stránkách svých výzkumných ústavů, případně používali bookmarky na domácích stránkách ostatních. Když se objevili roboti, kteří Internet pročesávali a umožňovali vyhledat stránky obsahující zadaná slova, byl to velký přelom.

Nyní má ale Internet několik miliard stránek a dříve používané algoritmy vyhledavačů již nefungují. Stránek, které splňují nějaké kritérium (např. obsahují slovo "lupa"), bývají tisíce nebo milióny - uživateli jich je ale vráceno obvykle jen deset. Vyhledávač musí vybrat ty, které uživateli přinesou největší užitek (v našem příkladu by to pro českého uživatele mohla být třeba adresa http://www.lupa.cz/). Velkým tématem jak současných hledačů tak i tohoto článku je relevance výsledků a její zvyšování. Dnes se podíváme na algoritmy, které používají analýzu hyperlinků.

Síla v odkazech

Internet, ač velmi chaotický (nebo demokratický, volný, anarchistický, svobodný), má také svůj řád a strukturu. Ta je daná propojením jednotlivých stránek. Kromě vlastního těla stránky má vyhledavač tedy k dispozici ještě informaci, která leží MIMO tuto stránku. Ta bývá často dokonce důležitější než obsah posuzované stránky, a umožňuje přesnější zhodnocení jejího tématu, typu či důležitosti.

Všechny moderní vyhledavače v menší či větší míře informaci z hyperlinků posuzují. Toto tvrzení se bohužel netýká veřejně přístupných hledačů českých, z pokud vím, neumí to ani jediný. Nyní se podíváme, jaké konkrétní informace můžeme z hyperlinků vyčíst:

Známost stránky


Nejjednodušší, co můžeme posuzovat, je počet odkazů, které na danou stránku ukazují. Dá se pak předpokládat, že více linkovaná stránka je známější. Tato úvaha má ale několik chyb - nepochytí rozdíl mezi tím, jestli na stránku ukazuje milión jednotlivých uživatelů nebo někde jediný robot vygeneroval milión umělých stránek, které mají stránku podpořit svými hyperlinky. Navíc také není totéž, že vás z hlavní stránky linkuje Yahoo nebo vás zmiňuje váš kamarád Honza.

Před dvěma lety přišel s dobrým řešením tehdy neznámý Google. Zakládá si na své veličině pojmenované PageRank (jak podle svého autora Larryho Pagee, tak přeložitelné jako "hodnost stránky"). Google interpretuje hyperlink jako hlas pro cílovou stránku. Tyto hlasy ale nemají stejnou váhu - stránka, která má sama vyšší PageRank, má pak větší váhu při hodnocení ostatních. S určitým zjednodušením se dá říct, že PageRank nějaké stránky je součet PageRanků stránek, které na ni odkazují.

Představte si, že "náhodný surfer" sedí před svým počítačem, prohlíží si stránky na Internetu a náhodně kliká na odkazy. Čas od času ho to přestane bavit a přeskočí na jinou, zcela náhodnou stránku. Z definice PageRanku vyplývá, že je to pravděpodobnost, že se tento náhodný surfer bude v kterémkoliv okamžiku nacházet na dané stránce. Google tak nejen aproximuje známost nějaké stránky, ale také její návštěvnost.

Tento algoritmus dobře řeší dříve zmíněné problémy. Uměle vygenerovaným stránkám nepřizná větší váhu, než jakou si zaslouží (tedy obvykle žádnou, protože na ně nikdo nelinkuje), a odkazy z důležitých a dobře spravovaných zdrojů jako je např. Yahoo nebo DMOZ dobře ocení. V prvním prototypu Google nedělal nic jiného, než že vzal stránky, které mají hledané slovo v titulku a seřadil stránky podle PageRanku. I samotní autoři byli překvapeni, že takto jednoduchý postup funguje obvykle lépe než konkurenční Altavista.

Distribuce textu odkazu

Ve světě platí jednoduchá závislost: Lepší pozice ve vyhledavači znamená více návštěvníků, to pak znamená více peněz. Každého webmastera pak dříve či později napadne upravit svou stránku, aby se používaným vyhledavačům co nejvíc líbila - a někteří jdou tak daleko, že svou stránku prošpikují desítkami opakovaných (a často irelevantních) slov a tím hloupější vyhledávače úplně popletou. Co pak zmůže vyhledávač, když někteří uživatelé na svých stránkách úmyslně matou? Odpověď jsme již jednou zmínili - musí použít informaci, kterou webmaster stránky nemá pod kontrolou. Obecně tomu můžeme říkat externí validace.

Ve své nejjednodušší formě to může znamenat vzít texty odkazů (tedy ta podtržená slova) a připsat je cílovým stránkám. Při vhodné statistické reprezentaci (která zohledňuje různorodost odkazujících serverů) pak máme informaci, kterou v podstatě nelze nijak zkompromitovat. Pokud např. 60% odkazů, které mají ve svém textu slovo Yahoo, ukazují na www.yahoo.com, můžeme z toho dobře usoudit na relevanci této stránky k dotazu "yahoo". Složitější algoritmy zohledňují i texty kolem odkazu (což mohou být třeba popisky v katalozích) nebo celou stránku.

Tuto techniku používá opět Google (původně jen vlastní texty odkazů, nyní údajně i jejich okolí), dále Excite (celý obsah domény, tzv. theming) a také Altavista (přinejmenším ve svých výzkumech, na výsledcích jejího vyhledávání to není nijak znát).

Příště

Přes mou snahu nějak do tohoto článku ještě vtěsnat informace o Clever Search od IBM nebo o určování podobnosti stránek se tento text poměrně rozrostl a tak si tato témata necháme na příště. Můžete také očekávat informace o rozeznávání významu slov, automatické kategorizaci a psaní popisků. Uvítám vaše komentáře a názory v diskusním fóru.


Nové trendy ve vyhledávání (2)V dnešním díle miniseriálu o moderních vyhledavačích - který vyvolal velmi zajímavou diskusi - si povíme o dalších algoritmech, které používají odkazy k zvýšení relevance hledání. Minule jsme si probrali algoritmy již používané, nyní se podíváme na postupy experimentální a v praxi ještě neimplementované.

Google používá svůj PageRank k posuzování známosti či důležitosti stránky obecně, tedy vzhledem k celému souboru. To mu umožňuje mít tuto hodnotu už předpočítanou z doby indexování dat, pak už ji jen používá jako heuristickou proměnnou pro řazení jinak podobných stránek.

Běžného uživatele ale většinou PageRank samotný příliš nezajímá. Pokud hledá informace o staročeské poesii, tak ho hlavní stránka Yahoo jako první odkaz moc neuspokojí, i kdyby byla sebevětší a sebeznámější. Neměl by tedy mít dobrý vyhledávač radši nějakou podobnou proměnnou specificky pro staročeskou poesii nebo jakékoliv jiné téma?

Autority a rozcestníky

Tak nějak uvažovali vědci z Almadenského výzkumného ústavu IBM. Zároveň si všimli, že lidé mají prapodivnou vlastnost - své vědomosti nějak strukturují - po celém světě tak vznikají katalogy tématicky řazených odkazů a na svých domácích stránkách si uživatelé vytvářejí malé rozcestníky o svých oblíbených tématech.

Robot, který všechny tyto informace zná (má přece svou databázi o stamilionech stránkách), by mohl všechnu tuto moudrost nějak uchopit. A když bude jeho uživatel pátrat po nějakém exotickém nebo odborném tématu, mohl by mu doporučit výborně spravovaný seznam zdrojů, který existuje na druhé straně zeměkoule. A protože náš moudrý robot zná důkladně i onen zdroj, tak uživateli nabídne rovnou odkazy v něm uvedené.

Ačkoliv toto zní dnes jako utopie, tak podobně inteligentní algoritmus existovat může a jak sami za chvíli uznáte, jeho podstata je poměrně jednoduchá.

Výzkumníci od IBM věc definují takto: Dobré "autority" jsou stránky, na které odkazuje mnoho dobrých "rozcestníků" (hubs), a dobré rozcestníky jsou stránky, které odkazují na mnoho dobrých autorit. Než proti takové definici začnete namítat jak odborně (že je to tautologie, definice kruhem nebo dokonce rozpor), případně laicky (cosi o psech honících se za vlastním ocasem nebo o baronovi Prášilovi, který se vytahoval z bažiny za vlastní tkaničky), vzpomeňte ještě na definici PageRanku: vysoký PageRank má stránka, na kterou odkazuje mnoho stránek s vysokým PageRankem. Je to stejná myšlenka, jen místo jedné sady proměnných máme sady dvě.


Ukážeme si, jak fungoval prototyp Clever Search, jak IBM svému vyhledávači říká (tento prototyp byl ve skutečnosti metahledač, ale stejnou myšlenku můžeme použít i pro vyhledávač s vlastní databází): Uživatel zadal svůj dotaz, třeba "MP3". Clever se pak na tentýž dotaz zeptal klasického fulltextového hledače a potom z Internetu stáhl všechny vrácené stránky spolu se stránkami, které z nich byly hyperlinkovány a také těch, které na ně hyperlinkují. Tuto množinu stránek budeme nazývat základní.

Na základní množině provedl výše popsanou operaci - ohodnotil každou stránku jak z hlediska její "autoritativnosti" (což by mělo znamenat, že obsahuje cenné informace), tak jako "rozcestník" (zda odkazuje na dobré zdroje). Algoritmus na výpočet je podobný jako u PageRanku - opakovaně se sčítají patřičné proměnné a celá soustava rovnic se po několika iteracích ustálí. Nakonec Clever vypíše uživateli deset nejlepších autorit a deset nejlepších rozcestníků.

Všimněte si, že původní dotaz ("MP3") už běh programu po prvním kroku vůbec neovlivňuje. V základní množině tak budou i stránky, které toto slovo vůbec neobsahují, a tyto stránky mohou být také výstupem z Clever Searche. Konzervativní autoři fulltextů, kteří prosazují názor, že vyhledavač musí vypsat takové stránky, které požadované slovo obsahují co nejvícekrát, si asi nad tím mohou hlavy ukroutit... přesto tento algoritmus funguje a je téměř vrcholem současné teorie o vyhledávání.

Praxe

Krásné myšlenky se občas střetnou s krutou realitou... jakkoliv je nápad s autoritami a rozcestníky povedený, nebyl dosud nikde na světě realizován v běžně používaném vyhledávači. To proto, že vypočítat danou soustavu rovnic v dostupném čase, daném trpělivostí uživatele (maximálně pár sekund, radši ale stovky milisekund), není zatím v celosvětovém měřítku možné.

Na základě poměrně velké odezvy v diskusních fórech soudím, že by bylo dobré ujasnit několik věcí o PageRanku, tedy veličině, kterou Google používá k posuzování známosti a důležitosti stránky. Někteří čtenáři soudili, že vypočítat PageRank je příliš složité až nemožné, většina si nejspíš myslela, že to je možné pouze s výkonem, který Google má (tisíce linuxových strojů), já se pokusím stručně obhájit názor, že samotný výpočet PageRanku není nic složitého. Na rozdíl od předchozích částí, které byly zaměřeny teoreticky, si uvedeme pár čísel.

Máme 500 miliónů stránek (jak je u dnešních hledačů obvyklé), mezi nimi 5 miliard odkazů (konstanta 10 odkazů na stránku je obecně platná). Na uložení všech PageRanků potřebujeme 2G B paměti (počítám 4 bajty na číslo, ať už s plovoucí čárkou nebo bez). Na uložení všech linků budeme potřebovat 40 GB (počítám dvojici 4 bajtových čísel, každé vyjadřuje číslo zdrojového nebo cílového dokumentu, tato čísla jsou přímo indexy do pole PageRanků). Databázi o struktuře linků seřazenou podle čísla zdrojové stránky máme již před výpočtem připravenou.

Když už vyrábíme celosvětový vyhledávač, asi pro nás nebude problém koupit jeden počítač s 2 GB paměti. Do ní narveme pracovní hodnoty PageRanků. Linkovou strukturu i informace o PageRanku z minulého průchodu budeme číst z disku. Jistě by nás zajímalo, jak dlouho nám bude takový výpočet trvat. Vzhledem k triviálnosti operací (pouze sčítání čísel z pole - používáme stále zjednodušenou rovnici, že PageRank stránky je součtem PageRanků stránek,

které na ni linkují), můžeme nároky na CPU zanedbat. Jediné, co nějakou dobu potrvá, je čtení z disku, což u SCSI bude minimálně 20 MB/s. Při těchto číslech bude jediný průchod trvat půlhodinu, nějakých 10 průchodů bude hotových za 5 hodin. Voilá, máme vystaráno.

Příští díl bude o hledání podobných stránek a automatické kategorizaci.


Nové trendy ve vyhledávání (3)Dnešní článek byl měl uzavřít miniseriál o moderních vyhledávacích technologiích. Tentokráte si ukážeme, jak současné hledače dokáží detekovat podobně zaměřené servery a následně automaticky kategorizovat stránky. Stejně jako v předchozích článcích budeme používat analýzu struktury Internetu pomocí odkazů.

Představte si, že z celého českého Internetu znáte pouze tento článek a doménu www.lupa.cz. Lupa se vám líbí a chtěli byste číst i další, podobně zaměřené články. Neznáte ale z hlavy adresu žádného českého katalogu a jediné, co u sebe náhodou máte, je počítač s databází obsahující všechny české stránky. Co uděláte, abyste v této záplavě informací nalezli nějaký další časopis o počítačích a Internetu??

Cesty k řešení jsou v zásadě dvě. První by spočívala v tom, že se podíváte, o čem Lupa píše (tedy jaká slova jsou na jejích stránkách nejčastější), a porovnáte to s počty výskytů slov na ostatních stránkách. Toto zní jako přirozený postup, ale nejen že je algoritmicky velmi náročný, také pravděpodobně nedospějete k žádnému dobrému výsledku. Maximálně najdete někde mirrory Lupy samotné, ale časopisy, které píší o podobných tématech těžko - hlavně proto, že všichni používáme stejný jazyk (český), a slov, která jsou specifická pro počítačově zaměřené servery je málo, a tak informace, kterou máte, vám nebude stačit k dostatečnému rozlišení. Ačkoliv je tedy tato technika teoreticky zajímavá a možná se jí budeme ještě v budoucnu zabývat, nyní nám vůbec nepomůže.

Druhá cesta je daleko perspektivnější a také se v současnosti používá. Nejste totiž na Internetu sami a někdo jiný už podobnou otázku určitě řešil. A je dokonce možné, že za sebou nechal nějakou stopu, kterou můžete použít. A tak stejně jako u algoritmu Autorit a Rozcestníků, kterým jsme se zabývali minule, budeme předpokládat, že odkazy mezi jednotlivými stránkami nejsou náhodné a skrývá se za nimi určitý řád, záměr a úmysl jejich tvůrce. Například stránky v katalozích jsou tématicky zaměřené a na domácích stránkách nějakého uživatele jsou odkazy, které odpovídají jeho zájmům.

Z toho můžeme usoudit, že když je na nějaké stránce hyperlink na http://www.lupa.cz/, tak u dalších odkazů uvedených na stejném místě je vyšší pravděpodobnost, že to budou také stránky o počítačích a Internetu. Spočítáme tedy pravděpodobnost, s jakou se jednotlivé linky vyskytovaly společně s linkem na Lupu, a stránky s největší pravděpodobností budou ty námi hledané.

Vyhledávání podobnosti umí např. Google nebo Altavista. Z českých fulltextů (stejně jako všechny vlastnosti probírané v tomto seriálu) to nedokáže žádný. Konkrétní algoritmus, který např. Google používá, není nikde dokumentovaný, proto výše uvedené berte spíše jako moji představu o řešení úkolu.

http://lupa.cz/clanek.phtml?show=1244


Zajímavou alternativou je Alexa, která také určuje podobnost stránek, ale ne na základě odkazů, ale podle sledování uživatelů, kteří si software od ní nainstalovali. Stránky, které mají z velké části shodnou uživatelskou základnu, jsou pak označeny za podobné. Tyto informace jsou zajímavým vedlejším produktem hlavního zaměření Alexy, kterým je měření návštěvnosti serverů pomocí monitorování vzorku uživatelů. Podobný postup používá např. i MediaMetrix, PC Data Online (ten výsledky zase používá ve svém katalogu Top9.com) nebo v budoucnu český SPIR.

Automatická kategorizace

Pokud jsme schopni programem rozlišit, které stránky k sobě tématicky patří, jsme už na půli cesty k algoritmu, který by samostatně vytvářel katalog, jaký má kupříkladu Yahoo nebo Seznam. Pouze bychom potřebovali vyřešit problém, jak nalezené skupiny kategorizovat tak, aby se v nich lidé snadno orientovali. I když i toto by šlo algoritmicky řešit, zatím se spokojíme s tím, že nějaký "lidský" zásah do systému bude nutný.

Na Internetu už dlouhou dobu existuje projekt Hubat, který se o automatickou kategorizaci snaží. Jeho myšlenka je poměrně jednoduchá - celý systém spravuje člověk, který vytvořil základní stromovou strukturu katalogu a pro každou kategorii zvolil jednu stránku jako příklad. Zbytek už záleží na robotech - jejich úkolem je procházet Internet a hledat stránky, které se té "příkladné" podobají. K posuzování podobnosti mohou docela dobře používat výše uvedený postup, i když je pravděpodobné, že je jejich algoritmus ještě vylepšený: například tak, že neposuzuje podobnost s příkladem, ale hned s celou množinou stránek, které do dané kategorie patří.

Yahoo je spravované asi 120 lidmi, kteří posuzují vhodnost stránek, které jim uživatelé posílají. Ani s takhle velkým týmem lidí se ale nápor zřejmě nedá zvládnout, jak dokládají časté nářky webmasterů, kteří nemohou své stránky do Yahoo protlačit. Systém, který používá Hubat, hodně ulehčí administraci systému - místo 30 odkazů je nutné vložit pouze jediný. I pak ale pravděpodobně na běh robota někdo dohlíží a opravuje jeho případné chyby.

Nejlepší způsob, jak kvalitu Hubatova katalogu posoudit, je podívat se na něj. Určitě vás překvapí, že dokáže k vybraným stránkám přiřadit i poměrně inteligentní popisek. Tato vlastnost se ale do dnešního článku už nevejde a tak mi nezbývá než popřát vám skvělého Silvestra a možná se setkáme nad dalšími zajímavými nápady zase v budoucnu.


Trojice velkých vyhledavačů, léta páně 2004Počet zahraničních vyhledavačů během posledního roku výrazně klesl. Menší vyhledavače nemají už příliš šancí uživatele zaujmout a ty střední byly koupeny svými většími kolegy. Zůstaly tak prakticky pouze tři firmy, které hrají významnější úlohu - Yahoo, Google a Microsoft (a "čtvrtý vzadu" Ask Jeeves). Co teď podnikají?

Celý trh rozhýbalo hlavně Yahoo vlnou nákupů, které snesly pod jeho střechu významné vyhledavače: Inktomi, jež dlouho poskytovalo vyhledávání mnoha portálům včetně MSN a Hotbotu, AllTheWeb, který zdárně konkuroval Googlu velikostí databáze i kvalitou hledání, a konečně Altavistu, jež bývala synonymem internetového hledání vůbec. Poslední dva


http://www.hubat.com/

http://top9.com/

jmenované vyhledavače získal akvizicí Overture, jedničky v prodeji placených přednostních výpisů.

Dlouhou dobu nebylo jasné, co bude Yahoo s tolika vyhledavači dělat. Pozorovatelé se ale jednoznačně shodovali v tom, že je bude spojovat - z každého si vezme to nejlepší.

Yahoo výsledek svého vývoje představilo 17. února, kdy překlopilo své hledání na vlastní technologii (do té doby odebíralo výsledky od Googlu). Spuštěný produkt nebyl žádným z třech zmíněných vyhledavačů, ale byl to nový systém, který pojmenovali Yahoo Search Technology. Přestože do teď trpí mnoha dětskými nemocemi (jejich robot se zaplétá do smyček z odkazů, ve výsledcích je u některých odkazů špatné URL, s českou diakritikou si nedokáže příliš poradit atd.), tak celkově jde o velmi slušné řešení. Zvlášť hodné pozornosti je, že sesadilo Google z pozice vyhledavače s největší databází: Yahoo dává pro většinu anglických dotazů více výsledků než Google. Relevance se posuzuje obtížněji, ale i zde mám subjektivní dojem, že je Yahoo pro anglické dotazy lepší.

Bylo zřejmé, že Yahoo nebude dlouhodobě podporovat paralelní běh všech (nyní již čtyř) fulltextových vyhledavačů. Ukončení ostatních technologií přišlo velmi rychle - od minulého týdne už Altavista ani AllTheWeb neposkytují vlastní výsledky, ale pouze zobrazují odkazy dodané z Yahoo Search Technology (spolu s přednostními výpisy Overture). Nastal tak smutný konec dvou webů, které utvářely dnešní podobu vyhledávání.

Yahoo je teď ve výborném postavení - má pod jednou střechou jak poskytovatele přednostních výpisů na bázi PPC (platby za klik), tak slušnou fulltextovou technologii. Zároveň provozuje dobrý freemail, hry, zpravodajství a další služby - zdá se, že mu do budoucna nic nechybí.

MSNMicrosoft si u vyhledávání uvědomil, že mu ujel vlak - že konkurence má už hotové klíčové služby, které on samotný nemá. Je na to ostatně už zvyklý, stalo se mu to několikrát předtím, počítejte se mnou: s nástupem multitaskingu, s nástupem grafických rozhraní, potom s nástupem sítí a Internetu, pak s nástupem webových prohlížečů, s nástupem ztrátové audio komprimace atd. Microsoft si ale z toho nic nedělá, protože ze zkušenosti dobře ví, že má monopol v oblasti operačních systémů, a tak je schopen ledacos protlačit silou.

Na své Microsoft Network (MSN) používá nyní fulltext od Inktomi spolu s placenými výpisy (Overture i vlastními). Je tedy velmi závislý na Yahoo, které je v oblasti portálů jeho největším konkurentem. Zároveň se Bill Gates a další vedoucí představitelé Microsoftu opakovaně vyjádřili, že považují Google za svého nepřítele a že se pokusí vytvořit lepší vyhledavač.

Na své technologii pracuje už od minulého roku, kdy vypustil na web svého MSNBota - robota, sbírajícího stránky do jejich databáze. Zatím nejsou výsledky nikde vidět, ale nedávno se Microsoft nechal slyšet, že "to spustí během 12 měsíců".

Do té doby aspoň opisuje, co se dá - spustil MSN Newsbot, tedy svoji verzi přehledu zpráv, a trochu zeštíhlil stránky svého vyhledávání, kde namísto grafických bannerů už používá spíše textové odkazy.

http://uk.newsbot.msn.com/

GoogleInternetový vyhledavač Google sice již ztrácí své partnery (obvykle jedničky na trhu), kterým dodával vyhledávání, ale vynahrazuje si to zvyšujícími se příjmy z reklamy - zatímco dříve byl jeho obchodní model založen na dodávce technologií, nyní se firma z drtivé většiny živí prodejem reklam AdWords/AdSense. Ve výsledku se mu teď daří lépe než kdykoliv předtím.

V poslední době spustil tři novinky:

design - odstranil ze stránek "záložky" a nahradil je prostými odkazy, vypíchnul hledání v obchodech Froogle, a více smazal rozdíl vzhledu placených a přirozených odkazů

zacílení hledání podle oblastí - v rámci Google Labs umožňuje uživateli vybrat si oblasti, které budou ve výsledcích hledání zvýhodňované. Je to takový půlkrok směrem k personalizaci vyhledávání.

web alerts - upozorňování na nové odkazy ve vyhledávání, taktéž v rámci Google Labs

Redesign byl už potřeba a jistě jde pro Google správným směrem - ze všech změn je cítit, že se snažil zejména zvýšit klikatelnost všech prvků - alternativních vyhledávání (obrázky, zboží, články atd.) i reklamních odkazů.

Ostatní nově zkoušené služby jsou googlovskými verzemi věcí, které tu byly již mnohokrát předtím (web alerts poskytují i nezávislé služby a cílení na oblasti zkoušelo poskytovat - nutno říct, že bez valného úspěchu - již několik vyhledavačů). Nemohu se zbavit pocitu, že Google už několik let přešlapuje na místě - zatímco když byl na konci devadesátých let spuštěný, tak přišel s několika revolučními myšlenkami, v posledních letech nepřinesl do svého hlavního hledání žádnou inovaci. Výborně se mu daří upoutávat pozornost médií vypouštěním krátkých zpráviček (např. o IPO) a oznámeními experimentálních služeb, ale ta vždycky po první vlně zájmu někam zapadnou a nezdá se, že by je větší množství lidí dlouhodobě užívalo.

Google MailAbych mu nekřivdil: přišla i jedna nadmíru zajímavá zpráva. Kupodivu se netýká hledání. Prvního dubna se v desítkách časopisů objevila informace, že Google hodlá spustil email poskytující 1 GB prostoru. Mnoho lidí nad tím kroutilo hlavou - vždyť freemaily poskytují obvykle tak 10-20 MB. Největší legrace ale je, že to vůbec není aprílový vtip.

Lidé, kteří se o vyhledavače zajímají, jistě již dlouhou dobu tenhle krok čekali a správně si i tipli jeho načasování: jakmile Google přišel o Yahoo, nemá již důvod otálet se spouštěním zbylých portálových služeb. Google už má hledání, katalog, zprávy, obchody, komunitní web, diskuze... email byl tedy jediná důležitá služba, která mu chyběla, aby se stal kompletním portálem.

Tímto krokem dává svým konkurentům - Yahoo a MSN - jasně vědět, že je chce v celkové návštěvnosti konečně předběhnout. Ale ani jeden z těchto v současnosti největších webů si to jistě nenechá líbit. Mezi portály bude letos ještě rušno.



http://labs.google.com/

Jak pracuje tematický PageRank (TPR)Originální PageRank algoritmus slouží k zlepšení hodnocení výsledků při vyhledávání. Je počítán jako vektor a používá strukturu odkazů na webu pro určení relativní důležitosti daných stránek. Pro získání přesnějších výsledků je lepší získat sadu PageRank vektorů, počítaných podle předem daných reprezentativních témat.

Jednoduše řečeno: místo řazení podle klasického PageRanku dojde k řazení podle tématického PageRanku, a to podle toho, jehož téma se bude nejvíce blížit tématu vámi hledané fráze, či jinak preferovaného. Pro běžné vyhledávání se počítá tematicky citlivý PageRank pro nalezené stránky pomocí tematického zaměření vyhledávaných slov.

Vyhledáváme-li v kontextu (například tím, že na webové stránce zvýrazníme slova a ta jsou použita pro vyhledávání), je užito téma daného kontextu, v němž se vyhledávaná slova nachází. Použitím kombinace takto předpočítaných tematických PageRanků jsme schopni dosáhnout přesnějších výsledků při vyhledávání.

Použití tematicky zaměřeného PagaRanku rozšiřuje původní předpoklad - že webové stránky, které jsou odkazovány ostatními stránkami, jsou důležité, a tudíž jsou důležité i webové stránky, na něž odkazují (klasický PageRank) - o myšlenku, že stránky, které na sebe odkazují, se týkají podobného tématu. Změníme-li PageRank na tematicky citlivý, vyhneme se ve výsledcích vysokému hodnocení webových stránek, jež jsou sice dobře a ze široka zalinkované, ale velmi málo tematicky souvisejí s námi hledanou frází. Webové stránky důležité při hledání jednoho tématu nemusí být důležité pro hledání tématu jiného.

Vzhledem k velké náročnosti na výpočetní výkon není možné počítat TPR zvlášť pro všechna myslitelná témata, ale v návrhu Tahera H. Haveliwaly ze Standford University se počítá s předpočítáváním TPR pro sadu základních témat, převzatých z Open Directory, ve spolupráci s mnohočlennou klasifikací (naive-Bayes classifier - Machine Learning) hledaného dotazu či hledaného kontextu.

Ve zmíněném návrhu se počítá se dvěma scénáři. V prvním dochází k zadání vyhledávací fráze do vyhledávače, je zjištěno téma, kterého se dotaz týká, a výsledky jsou řazeny podle TPR daného tématu. Toto zajistí, že se ve výsledcích objeví webové stránky, jejichž odkazová struktura má nějaký vztah k hledanému tématu.

Ve druhém scénáři předpokládáme, že uživatel si prohlíží nějaký dokument (webovou stránku nebo email) a vybere si výraz, pro který by chtěl získat více informací. Zde je vybírán TPR na základě kontextu, ve kterém se hledané slovo nachází. Takže jiné výsledky dostaneme, hledáme-li slovo "architektura" z dokumentu o designu CPU, a jiné výsledky budou, týká-li se dokument stavby budov.

Další zdroj kontextu může přijít od uživatele, jenž hledá dané téma, například z jeho záložek v prohlížeči či již prohlédnutých webových stránek. Toto je možné - pro zachování soukromí - udělat tak, že se pošle jen váha jednotlivých hlavních témat. Například že váha uživatelových preferencí tématu Počítače je 0,5.

Taher H. Haveliwala navrhuje spočítat při získávání obsahu z webu (crawl time) TPR podle URL z 16ti nevyšších kategorií v Open Directory (ODP). V době dotazování (query time) je počítána podobnost dotazu ke každému z těchto 16ti témat. Poté je k seřazení výsledků

http://www.amazon.com/exec/obidos/tg/detail/-/0070428077/ref=sib_rdr_dp/102-8495547-3076912?_encoding=UTF8&no=283155&me=ATVPDKIKX0DER&st=books

http://www.dmoz.org/


použita kombinace jednotlivých TPR, přičemž je jim dána váha podle podobnosti tématu k dotazu. Protože jsou jednotlivé TPR počítány offline a nikoliv v době dotazu, není tento způsob o mnoho časově náročnější než řazení dle klasického PR.

Pro výpočet jednotlivých TPR je sice možno použít jakýkoliv jiný zdroj, dělící stránky podle kategorií, ale záměrně je použito ODP, které vytvářejí tisíce dobrovolných editorů, a to proto, že díky principu svého vzniku je méně náchylné na ovlivňování. Pro vyloučení vlivu "špatných" editorů dochází k modifikaci, kdy je nejdřív spočítán TPR na stránkách uvedených ODP a posléze je rozdistribuován na všechny stránky na webu.

Tak teď nám nezbývá než si počkat, až nasadí TPR třeba Google. Zamotalo by to hlavu nejen SEO "konzultantům", ale hlavně by to ztížilo jejich šance na manipulace s výsledky.


Google PageRank - slavný trik velkého kouzelníkaPageRank stojí za popularitou vyhledavače Google. Hodnocení stránek na základě počtu a kvality odkazů je součástí Googlu od počátku a postup jeho výpočtu se zatím nezměnil. PageRank má mnoho kritiků, kteří poukazují na možnosti zneužití. I přesto se PageRank nasazuje i mimo samotný fulltext, nyní podle něj například řadí záznamy v katalogu Atlas.

Google a PageRank patří nerozlučně k sobě, dalo by se říci, že PageRank je srdcem Googlu. Vyvinuli jej zakladatelé Googlu Larry Page a Sergey Brin na úplném počátku, a přestože se od té doby vyhledavač hodně změnil, princip PageRanku zůstává stejný jako na počátku.

Jak se Google PageRank počítá PageRank je hodnocení stránky na základě kvality odkazů, které na ni vedou. Hodnota PageRanku představuje součet PageRanků, které jsou stránce předány ze stránek, které na ni odkazují. Kdybych se měl pokusit vysvětlit, jak se PageRank počítá na abstraktní rovině, patrně byste článek nedočetli. Proto raději uvedu příklad:

Pokud má stránka A PageRank 5/10 a obsahuje 50 odkazů, pak každý odkaz předá cílové stránce právě padesátinu PageRanku zdrojové stránky, tedy A50 = 0,1/10. PageRank cílové stránky B se získá součtem všech PageRanků předaných s odkazy. Aby cílová stránka B získala také PageRank 5/10, muselo by na ni vést padesát odkazů s PageRankem 0,1/10. Výše PageRanku nijak nesouvisí s obsahem stránek (výjimkou jsou diskvalifikační body za unfair přístup k vyhledavači). A to je v kostce všechno, přátelé.

Jakých hodnot Google PageRank nabývá Pokud si říkáte, že by vás zajímalo, kdy se vezme ten úplně první PageRank v řadě, pak vás musím ubezpečit, že se tu nepohybujeme v říši kouzel a perpetuí mobilí, nýbrž na pevné půdě matematiky. PageRank uváděný jako desetinný zlomek je ve skutečnosti jen zástupným symbolem. Součet všech PageRanků by měl být vždy konstantní. Řekněme tedy, že absolutní součet všech PageRanků je právě 1. Relativně se tedy dá říci, že se PageRank se vzrůstajícím počtem zaindexovaných stránek stále více rozmělňuje a PageRank každé stránky je zlomkem konstantního PageRanku - opravdu velmi nízkým desetinným číslem blízkým nule.



Pokud pak interval mezi 0 a 1 rozdělíme na deset částí, pak podíly PageRanku v každé části můžeme převést na X/10. Takové číslo se pak docela dobře ukazuje v Google Toolbaru nebo v "teploměru" na Google Directory.

K čemu je Google PageRank dobrý Google PageRank se uplatňuje při řazení výsledků vyhledávání. Při vyhledávání se sice Google řídí výskytem klíčového slova na cílové stránce a v textu odkazů na ni vedoucích, ale pokud získá několik stránek přibližně shodně relevantních k zadanému dotazu, sáhne Google pro PageRank a výsledky podle něj seřadí.

Pánové Page a Brin předpokládají, že čím více je na stránku odkazováno z kvalitních zdrojů, tím kvalitnější poskytuje obsah. Google nepatří k nejstarším vyhledavačům, ale prosadil se z počátku právě především v důsledku použití PageRanku k řazení relevantních odkazů. Autoři Googlu se domnívají, že PageRank nelze zfalšovat - nikdo přeci nechce odkazovat na nekvalitní stránky.

Protože oba autoři vymýšleli Google na vysoké škole, lze předpokládat, že se inspirovali akademickým citačním indexem vědeckých publikací. Ten funguje na podobném principu. Čím častěji nějaký vědec cituje určitou vědeckou publikaci, tím závažnější dopad ona publikace na vědu má. Na tomhle principu stojí celá věda o měření vědy - scientometrie.

Google PageRank našel druhotné využití při různých příležitostech, kdy je potřeba srovnávat webové stránky. Podle výše PageRanku například začal řadit záznamy v sekcích katalogu Seznam - blíže se tomuto tématu věnuji ve článku Co se děje s portálovými katalogy.

PageRank záhy poté, kdy se proslavil, adoptovaly téměř všechny moderní vyhledavače. Někteří kritici PageRanku vytýkají, že je ovlivnitelný různými dohodami, placenými odkazy nebo odkazovými sítěmi. Jedna z prvních věcí, kterou vám doporučí konzultant pro SEO, bude dohodnutí velkého počtu odkazů vedoucích na vaši stránku. Například i zde na Lupě v levém sloupci můžete najít odkaz, který se zaměřením Lupy nesouvisí, zato však pomáhá budovat PageRank jisté cestovní kanceláři.


Ze kterého vyhledavače přichází nejvíc lidíŽe v českém vyhledávání hraje prim Seznam, to nepřekvapí. Děsivý je jen jeho téměř poloviční podíl. Příjemné je naopak zjistění, že přístupy z fulltextů se už polovině také blíží a kvalitní vyhledavače jako Google získávají na oblibě. Přesto globální statistiky při bližším pohledu odhalují i netušené informace o vyhledávání na webu.

Pozornost upřená k optimalizaci pro vyhledavače otevírá prostor pro mnoho otázek. Jednou z nich například je, kolik lidí mohou vyhledavače přivést měsíčně na váš web. Odpověď se samozřejmě liší podle klíčových slov a sezóny. Podobnou otázkou je, na který vyhledavač je vhodné optimalizaci zaměřit.

S první otázkou si dnes už poradíme snadno. Služby jako Overture, WordTracker nebo český eTarget zpřístupňují počty hledání slov za udaný časový interval a podle nich se dá odhadovat počet vyhledávání do budoucna. Potíž je s druhou otázkou. Máme se zaměřit na vyhledavač,


http://digiweb.cz/index.php?p=i00000_d&a%5Bid%5D=12882280&a%5Barea_id%5D=10074060

http://directory.google.com/


který používá nejvíce uživatelů? Nebo si máme vybrat vyhledavače využívané méně? Či se snad máme pokusit zaměřit na všechny?

Museli bychom nejprve zvědět, jak jsou které vyhledavače využívány. Prostý audit návštěvnosti nepostačí, protože nezahrnuje všechny servery a nevyčteme z něj, kolik požadavků vyhledavače opravdu přivedou dále na web. Podíly vyhledavačů se dají vyčíst ze statistik návštěvnosti webů. Pokud ale spoléháme pouze na jeden určitý web, zjistíme jen tolik, co se právě toho jednoho webu týče. Víme tedy, kolik dotazů poslal na zvolený web který vyhledavač, ale nevíme, kolik jich poslat mohl.

Skutečný podíl vyhledavačů zjistíme jen tehdy, když můžeme porovnat statistiky z více webů. Právě k tomu se skvěle hodí masově využívaná počítadla a outsourcované statistické služby typu Navrcholu.cz, Toplist, iTop, eMerite či Návštěvnost a podobné.

Čím více a čím rozličnějších webů počítadlo měří, tím přesnější přehled o podílech vyhledavačů můžeme získat. Globální statistiky o přístupech z vyhledavačů zveřejňuje Toplist, který s více než 65.000 měřenými weby jistě může poskytovat relevantní údaje. Podobně na tom je Navrcholu.cz, které po loňském pročištění měří návštěvnost pro zhruba 15.000 webů.

Právě z globálních statistik Navrcholu.cz, které byly zveřejněny ve středu, můžeme vyčíst zajímavé informace. Určitě je potěšující zjištění, že výsledky Navrcholu.cz se téměř kryjí se statistikami Toplistu. Drobné odchylky mohou být způsobeny jak různými zahrnutými weby, tak i tím, že Navrcholu.cz poskytuje data agregovaná za celý měsíc, kdežto Toplist statistiky počítá za jediný den.

Dominance Seznamu (48,5 procenta návštěv) a podíly Atlasu (6,7 procenta) a Centra (6,3 procenta) nejspíš nepřekvapí. Taktéž více než čtvrtinový podíl Google jen splňuje očekávání. Zajímavější ale je pohled na typ vyhledávání. Ne tak ani, na kterém portálu uživatelé vyhledávají, ale zda preferují fulltext, nebo katalogy. A také otázka, zda uživatel v katalogu vyhledává, nebo jej prochází po sekcích.

Zásadním zjištěním je vysoký, totiž nadpoloviční podíl přístupů z katalogů. Masa českých uživatelů prohledává a prochází katalogy. Čím to je? Patrně předvoleným typem vyhledávání na portálech. Také procházení katalogů po sekcích je nejspíš způsobeno tím, že portály se nákladně udržované katalogy snaží uživatelům vnucovat. Na katalog Seznamu připadlo v únoru 38,5 procenta návštěv, kdežto na jeho fulltext jen asi 10 procent. U Atlasu a Centra je odstup ještě větší, sic korigovaný smíšeným vyhledáváním.

Dušan Janovský se pozastavoval nad umístěním Navrcholu.cz na 12. místě mezi vyhledavači s podílem 1,09 procenta. Podobně se ve statistikách Toplistu objevuje Toplist na 13. místě s 1,11 procenta. Je to samozřejmě odchylka proti normálu, kterou způsobuje fakt, že uživatelé statistických služeb zvědavě procházejí sekce a sledují weby své konkurence a srovnávají postavení v žebříčcích návštěvnosti. Počet přístupů z katalogů statistických služeb ale ukazuje, že se může vyplatit systematické zařazování webové prezentace i do specializovaných katalogů.

http://www.jakpsatweb.cz/weblog/archiv/2004-03.html#110200

http://www.iinfo.cz/tiskova_zprava/navrcholucz_seznam_obslouzi_temer_polovinu_vyhledavani_na_ceskem_webu/

http://www.toplist.cz/global.html

http://www.navstevnost.cz/

http://www.emerite.cz/

http://www.itop.cz/

http://www.toplist.cz/

http://www.navrcholu.cz/

http://iaudit.info/

http://iaudit.info/

Návštěvy ze SeznamuSlužba Podíl (%)

Firmy 0,02Fulltext ČR 1,82Fulltext svět 0,32Fulltext 7,85Katalog 38,53

Návštěvy z AtlasuSlužba Podíl (%)

Firmy 0,04Fulltext 0,03Katalog 2,44Mix 4,09

Návštěvy z CentraSlužba Podíl (%)

Firmy 0,04Fulltext 0,62Katalog 2,32Mix 3,31

Data uváděná v tomto článku pocházejí ze zdrojové tabulky Navrcholu, kterou mi laskavě poskytla společnost Internet Info. Data jsou sdružena za celý měsíc únor 2004 a byla naměřena z návštěvnosti webů registrovaných u Navrcholu. Rozeznáno bylo celkem 368 různých vyhledavačů. Z agregovaných dat bohužel nebylo možné vytvořit přehled přístupů podle search-enginů, jelikož například Yahoo! a Seznam v průběhu měsíce změnily dodavatele vyhledávání.


Existuje odvrácená tvář Googlu? (1.)Pro úvod k zamyšlení nad jakýmkoliv tématem je velmi výhodné, nemusí-li autor objekt svého zkoumání podrobně představovat. Vše nasvědčuje tomu, že internetový vyhledávač Google je spolu s Amazonem a několika málo dalšími internetovými aplikacemi jediným profitabilním a progresivním pozůstatkem takzvané dot-com bubliny.

Google, ač sám mezi vyhledávači poměrně čerstvý absolvent, je v povědomí většiny lidí zakotven jako pevný bod chaotického a neuchopitelného světa Internetu, velmi vhodné místo pro rozhlédnutí se po tomto moři informací a následné plavbě. Jistě, není takto nazírán u každého uživatele Internetu a ne každý jej považuje za jediný možný prostředek k dopravě k informačnímu cíli, je však stejně jistě nezpochybnitelné, že v současné době disponuje značnou převahou mezi obdobně zaměřenými službami.


Podle údajů web-analytického serveru OneStat.com z 18. listopadu 2003 je Google jednoznačně na prvním místě, co se týče zdrojů, ze kterých přichází návštěvníci na sledované webové stránky - z celkového počtu jich "vytváří" 56,1 procenta. Jako druhý vyhledávač je také známé Yahoo!, ovšem s 21,5 procenty podílu, což poměrně dostatečně ilustruje náskok, jaký si Google během krátké doby na poli vyhledávačů vytvořil. To podtrhuje fakt, že Yahoo! navíc stále používá jako vyhledávací službu Google, až nyní jej postupně vyměňuje za Inktomi. Mohutnou převahu v množství vyhledaných informací si Google drží i na českém Internetu: díky implementaci jeho vyhledávacího stroje do největšího českého portálu Seznam (z dalších ještě Caramba) generuje až 29 procent hledajících návštěvníků českých stránek (druhé Jyxo má sedm procent).

Google je tedy díky relevanci vracených výsledků mezi internetovými pátrači nejoblíbenější a podle toho se také odvíjí jeho takřka dominantní pozice mezi vyhledávači. V době, kdy se módním synonymem ke spojení "hledat na Internetu" stává termín "vygooglit" a společnost po celém světě je masivně přesvědčována o výhodách i nutnosti převedení větší části svých informačních aktivit na Internet, se možná zdá zvláštní myšlenka, že by úspěch Googlu mohl nabývat i negativní podoby. Při pohledu na trendy ovládající svět uživatelů médií je snadné uhádnout, jak se bude pozice Internetu ve společnosti vyvíjet. Už nyní přesahuje čas věnovaný Evropanem tomuto nosiči nových médií množství času strávené nad časopisy a blíží se k představiteli tradičního posla zpráv, tisku (přestože je zdrojem výzkumná zpráva Evropské asociace zadavatelů reklamy na Internetu, a je tedy nutné brát ji s mírnou rezervou, nijak nevybočuje z podobných prognóz méně zainteresovaných stran). Jestliže se stále větší množství lidí obrací pro informace k jednomu zdroji (webu) a stále více jich považuje tento zdroj za dostatečný pro svoje rozhodování, je jistě relevantní se ptát, co všechno získá ten, kdo tento zdroj z velké části pokrývá. Z předchozího odstavce je zřejmé, že je-li možné některou službu za takto dominantní označit, je to právě Google, podle některých statistik např. ve Velké Británií používaný více než polovinou obyvatelstva k vyhledávání informací na Internetu.

Zneužití monopolního média ve prospěch nějaké skupiny, ať už držitelů institucionální moci či ekonomického vlivu, k prosazení vlastního zájmu není v lidských dějinách zrovna neznámým úkazem. Média zneužívali komunisté a prakticky všechny direktivní druhy režimů na světě a ekonomická cenzura se nevyhýbá ani relativně svobodné západní civilizaci. Google vlastní zcela soukromá společnost, založená dvěma studenty, autory původního konceptu tzv. Page Ranku (algoritmu ohodnocujícího hledané stránky, který Google vynesl na piedestal mezi vyhledávacími stroji). Ačkoliv by bylo poněkud laciné a obtížně dokazatelné hledat v její činnosti nekalé stopy, jsou lidé, kteří se takovým záměrem intenzivně zabývají. Mezi obhájci internetového soukromí je poměrně známá adresa www.google-watch.org, shromažďující jakékoliv náznaky negativních dopadů Googlu na virtuální i reálný svět. Samotná firma je tu obviňována z možného spojení s vládou USA za úkolem sběru informací o uživatelích a jejich vyhledávacích úmyslech. Přes poněkud komický dojem, který takové úsilí vyvolává, je možné vážněji se zamyslet nad některými důvody antipatie autorů tohoto webu vůči Googlu: shromažďování řady údajů o počítačích použitých k vyhledávání (IP adresa, konfigurace) bez explicitního vyjádření důvodu či nejistota webmasterů plynoucí z nepravidelně se měnícího pohledu Googlu na relevanci jejich stránek.

Co se týče sběru dat o uživatelích, je nutné na obranu Googlu poznamenat, že mezi poskytovateli internetových služeb nečiní žádnou výjimku. Zaznamenávání IP adresy, rozlišení obrazovky, verze prohlížeče a další údaje provádí takřka každý provozovatel většího serveru a zpravidla toto chování ospravedlňuje (má-li to vůbec kdy zapotřebí) stejně jako

majitelé Googlu: lepšími možnostmi personalizace a rozvoje svých služeb. Mamut Google je však přece jenom více na očích než server lokálních zpráv, a tak není divu, že např. jeho koncept ukládání cookies (souboru pro identifikaci, uloženého na počítači uživatele) stále vzbuzuje pochyby a protesty některých počítačových odborníků. Dobu expirace tohoto souboru totiž administrátoři Googlu nastavili na 17. leden 2038, což oprávněně pobízí k otázce, co tak důležitého na tak dlouho dobu si u nás (rep. o nás) chtějí uschovat.

Odhlédneme-li pak od poněkud sporné otázky míry ochrany soukromí, zůstane před námi ještě dost oblastí čí slabých míst, které tato zásadní pozice na cestě v přístupu k novému médiu webových stránek může obsahovat. V zásadě je lze rozdělit do dvou základních oblastí - technické a "politické" - a u obou ještě na směr (vnější a vnitřní), odkud mohou být využita, ať už chybou či záměrem. Zároveň lze téměř u všech těchto míst říci, že se u nich již v nějaké míře jejich zneužitelnost projevila či byly přímo využity v něčí prospěch. Ukažme si tedy tyto příklady a následně pro ně zkusme najít společný rys či prvek, který jejich nestandardní využití umožnil. Tento závěr, jak poznáme, bude v celém tomto pokusu nejdůležitější - nejen proto, že jinak by toto snášení faktů na jedno místo postrádalo opodstatnění, ale zejména tím, že nám pomůže odhalit možná lehce překvapivé jádro problémů, které by s pozicí jakéhokoliv vyhledávače s postavením Googlu musely souviset.

Google bombing S tím, jak Google nabíral na vyhledávací a obchodní síle, povšimlo si více lidí druhého aspektu jeho tolik ceněné schopnosti řadit výsledky vyhledávání podle počtu zpětných odkazů (jeden z hlavních pilířů Page Ranku spočívá v úvaze, že čím více jiných stránek odkazuje na jednu určitou stránku, tím více bude zřejmě relevantním a důvěryhodným zdrojem). Ne vždy totiž musí být vaše pozice na jednom z prvních míst výsledkové listiny nutnou výhodou. A to dokonce, i pokud je toto výsledkové pořadí vráceno na dotaz po typické činnosti vaší firmy či po hledání vašeho jména. Není totiž nijak složitou činností sepsat o vás či vašich aktivitách kritický článek, publikovat jej na webu a označit jej titulkem či klíčovými slovy, po kterých se bude nejspíše ptát uživatel Internetu, bude-li o vás hledat odkazy. Posledním a nejdůležitějším krokem pak však musí být přesvědčení vyhledávače, že právě váš článek je důležitějším zdrojem informací o dané osobě než její vlastní stránky.

Zde poprvé vstupuje na scénu poměrně nový (i v časovém měřítku rozvoje Internetu) a současně trošku módní fenomén komunity tak zvaných bloggerů. Jedná se o majitele zvláštních druhů webových stránek, weblogů. To jsou webové stránky s chronologicky řazenými zápisy (obdoba knižních deníků) s odkazy na zajímavé stránky, úvahami, komentáři a dalšími publicisticko-literárními žánry v jednom celku. Během velmi krátké doby získal tento druh publikování značnou popularitu nejen pro svoji alternativní pozici vůči mnohdy kriticky hodnoceným tradičním masovým médiím, ale i pro mnohé další rysy subjektivně a osobně podaného pohledu na svět, který jsou někteří jedinci schopni pravidelně podávat. Na druhou stranu se čím dál víc ozývají hlasy především zavedenějších internetových i novinových komentátorů, podle kterých jde spíš o monstrózní generátor falešných a zavádějích informací plytkého a bulvárního charakteru bez jakékoliv záruky autenticity a integrity podávaných zpráv. V každém případě je patrné, že z mnoha desítek tisíc weblogů je pro kvalitní informační či zábavní obsah vyhledáván jen minimální počet z nich, a to navíc skupinou návštěvníků, o jejíž velikosti jsou sváděny mnohé rozepře.

Co je důležitější, je objektivní a snadno pochopitelná přízeň mnohých bloggerů vůči Googlu. Právě takový vyhledávač, který vybírá zdroje o daných tématech bez hodnocení jejich původu, mohl stát v pozadí vzestupu osobních poznámek samostatných jedinců. Uvážíme-li

výše zmíněnou vlastnost Page Ranku zvyšovat kredit stránkám, které jsou často odkazovány a vzájemnou komunitní sbliženost řady bloggerů, s oblibou odkazujících na své deníky navzájem, je zřejmé, že dříve či později se jejich vliv v celosvětové pavučině musel projevit.

Hodnocení vlivu bloggerů na prostředí Internetu však ponechme jiným úvahám. Pro ty naše je zajímavější událost, dokumentující jeden z prvních pokusu obrátit sílu Googlu v něčí neprospěch. Odehrála se v dubnu roku 2001 v rámci žertovného experimentu Adama Mathese, vyhlášeného na jeho weblogu jménem Über. Jeho obětí se stal Mathesův přítel Andy Pressman, resp. jeho web Oh Messy Life. Trik spočíval v tom, že se Mathesovi podařilo na svých stránkách přesvědčit dostatečné množství dalších bloggerů k tomu, aby na svých weblozích uvedli odkaz na Oh Messy Life pod názvem "talentless hack" (pisálek bez talentu). Důsledek na sebe nenechal dlouho čekat: indexovací stroj Googlu toto nepřehlédnutelné množství odkazů pod jedním výrazem zaregistroval a přiřadil cílovým stránkám velmi vysoké hodnocení pro vyhledávání tohoto výrazu. Každý, kdo poté do vyhledávacího pole Googlu zadal sousloví "talentless hack," obdržel jako první výsledek hledání odkaz na Pressmanův Oh Messy Life.

Tento postup posléze vstoupil do terminologie internetu jako "Google bombing", bombardování Googlem, jak jej ve své výzvě označil Adam Mathes. Přestože existují dohady, že podobná "bomba" byla zřejmě použita již v roce 2000 při americké prezidentské kampani, je Mathes prokazatelně první, kdo ke stejnému účelu použil mezinárodní komunitu bloggerů. Politické zneužití podobného mechanismu v prezidentských volbách by bylo jistě mnohem zajímavější, podle všeho byl však tento případ spíše důsledkem omylu než cíleného záměru. Také větší množství dalších známých pokusů o bombardování Googlem sledovalo spíše nepolitické a nezištné cíle, jako upozornění na pochybné praktiky některých firem.

Google bombing však stál také na pozadí jednoho z nejznámějších pokusů o politicko-komerční kontrolu nových informačních zdrojů v roce 2002. Hlavní roli v této kauze hrála sekta scientologů, označujících sebe samé za vyznavače aplikované víry, vedoucí k očištění a nápravě "problémového" světa. Podle nemalého zástupu jejich kritků jde však spíše o zištně orientované manipulátory, schopné důmyslnou psychologickou procedurou přinutit své členy k maximální hmotné i psychické loajalitě. Scientologové od získaných lidí vybírají nemalé poplatky a snaží se pronikat do širokého spektra soukromých i státních organizací za účelem získávání vlivu na chod společnosti. Počátkem roku 2002 si někteří lidé povšimli nebývalého vzestupu scientologických webů v pořadí výsledků pro různé typy dotazů ve více vyhledávačích včetně Googlu. Jeden z jejich odpůrců, Keith Henson, následně zjistil, že sekta využívá široké sítě svých vlastních i partnerských webových serverů, aby vzájemně posilovala hodnocení svých oficiálních stránek ve vztahu k různým klíčovým slovům (tedy princip klasické googleovské bomby). Poté, co o tomto faktu informoval na svých stránkách, reagovalo velké množství bloggerů podpořením iniciativy za účelem protiaktu. Použili svoji vlastní "bombu" a během krátké doby se jim podařilo protlačit na čtvrté místo výsledků vyhledávání na Googlu po zadání slova "scientology" adresu webu jejich největších on-line kritiků, webu Operation Clambake (Xenu.net).

Kdo by však čekal obvyklé zakončení podobných víceméně nevinných soubojů o přízeň vyhledávače - tedy po čase úpravu googleových hodnotících vah a vyrovnání listiny výsledků do obvyklé podoby - byl tentokrát nemile překvapen. Scientologové si totiž tento vrácený úder nenechali líbit a sáhli po zbrani ještě mocnější: po právnících. K soudu podali stížnost na postup serveru Xenu.net pro podezření o porušení copyrightové ochrany zákona Digital Millenium Copyright Act (DMCA). DMCA byl v Kongresu USA přijat po silné aktivitě

zejména nahrávacích společností na ochranu duševního vlastnictví, avšak jeho široký záběr postihovaných činností se dotýká i řady druhů manipulace se softwarovými prostředky. Tím se sice stal okamžitě terčem kritických analýz, avšak jeho působnost se zatím zvrátit nepodařilo. Scientologové argumentovali porušením implicitního vztahu "scientologie - scientologové" ve prospěch Googlem uměle navozeného "scientologie - Xenu.net" a dosáhli svého cíle. Google vyřadil ze své databáze odkazy na server Xenu.net. Po krátkých protestech jeho zastánců jej vrátili alespoň částečně, ovšem na zanedbatelně atraktivní pozice výsledků. Jisté je, že Google po těchto zkušenostech začal přepracovávat koncept Page Ranku tak, aby podobným pokusům v budoucnu zabránil. Je otázkou, nakolik se mu to daří, protože různé varianty podobných "bomb" je možné vymýšlet dál, pouze s adaptací na aktuální podmínky Googlu.

Google jako nástroj hackingu Google bombing není jediný "špinavý" způsob, jak zapřáhnout potenciál tohoto vyhledávače v něčí prospěch (a v neprospěch někoho jiného). O dalším účinném, byť až údivně prostém druhu využití indexačního potenciálu Googlu informoval v březnu roku 2004 internetový magazín Wired. Plody mravenčí práce Googlových robotů (programů, automaticky sbírajících po webu informace o stránkách), gigantická databáze stránek, byla využita pro vyhledávání serverů, které nemají zabezpečený databázový webový frontend (zpravidla grafické rozhraní pro ovládání databáze pomocí webového prohlížeče). Hackerům (z důvodu již masové rozšířenosti tohoto výrazu pro označení aktérů nelegitimní aktivity v elektronických systémech se v tomto textu budu držet tohoto poněkud nešťastného zvyku) potom stačilo zadat dostatečně promyšlený dotaz do vyhledávače, aby za ně odvedl nepříjemnou práci a našel server, který nemá zabezpečenou databázi pro přístup zvenčí. "Google, patřičně použitý, má větší útočný potenciál než jakýkoliv jiný hackovací nástroj," prohlásil pro Wired hacker Adrian Lamo.

V základě jde o velmi elegantní myšlenku: proč se snažit v záplavě webů najít ten, který má otevřený přístup k databázi, když stránka, která tento přístup poskytuje, bude jistě indexovaná Googlem? Potom jsme tedy například zadáním fráze "Select a database to view" získali v době odhalení této možnosti hackingu kolem 200 odkazů, vedoucích povětšinou na interface aplikace FileMaker Pro, používané jako jednodušší nástroj pro přístup k databázím prostřednictvím webového prohlížeče. Některé z odkazů vedly ke zdrojům citlivých informací. Jeden směřoval k osobním údajům (adresám, telefonním číslům a podrobným životopisům) několika set lektorů firmy Apple, včetně jejich uživatelských jmen a hesel. Databáze nebyla v té době nijak chráněna (v tomto okamžiku však již zřejmě je).

Další odkaz pak vedl na stránky fakulty medicíny Drexel University s databází 5500 pacientů fakultní neurochirurgie. Každý záznam obsahoval adresu, telefonní číslo, chorobopis... V tomto případě byla databáze "chráněna" heslem, shodným s názvem databáze. Okamžitě po upozornění na chybu naštěstí její správce server odstavil, nicméně zůstává otázkou, kolik podobných otevřených dveří na Internetu čeká na prvního zvědavce. Při hledání odpovědi na otázku, na čí straně je tentokrát vina, se zřejmě většina lidí shodne s Lamem, který poznamenal: "Je-li váš zdravotní záznam indexován Googlem, něco je špatně." Paradoxně se takto dostáváme k odhalení jevu, který stojí v opozici všeobecné víry ve schopnosti Googlu: k podcenění jeho schopností. A to tím ostudnějšímu, že se ho dospustili lidé stojící na hierarchii technických schopností uživatelů Internetu nadprůměrně vysoko, správci serverů a bezpečnostní odborníci veřejných institucí. Nemusíme však pochybovat o tom, že se podobných přehmatů odehrává na světové síti denně těžko odhadnutelné množství a jen o zlomku z nich se dozvíme prostředky médií.

Google zde tedy na vině určitě není, tento případ je však zároveň jedním z těch, které nám umožní nahlédnout na jeho fenomén z jiné strany, než jsme možná zvyklí. Máme-li v rukou nástroj mocné síly, víme, že je nutné používat jej s rozvahou a opatrností přímo úměrnou jeho schopnostem. Google je právě takový nástroj, jen málokdo jej však takto vidí: pro jedince vybavené znalostním a technickým kapitálem představuje účinného prostředníka k finančním, politickým či čistě záškodnickým cílům. Pro obyčejného uživatele osobního počítače, pro nějž je synonymem Internetu okno MS Internet Exploreru s vyhledávácí lištou Googlu, jde o užitečný, avšak zároveň převážně neškodný "ten Internet sám o sobě." Tím se ovšem stává ještě více zranitelný vůči prvně uvedené skupině, ovládající druhou stranu "googlevské mince." Podrobnější rozbor této situace si necháme na závěr, nyní se pro vyváženost ještě podíváme na optimističtější roli Googlu v souboji jeho vnějších uživatelů.


Existuje odvrácená tvář Googlu? (2.)Představy vnitřního zneužití potenciálu Googlu jsou zpravidla lákavější než ty uskutečněné zásahem zvenčí, zejména díky dopadu, jaký by mohly v reálném případě mít. Ovšem pochopitelně čím větší hrozbu nějaký subjekt představuje svojí potenciální skrytou manipulací, tím větší úsilí vynakládá, aby podobné obavy v ostatních rozptýlil.

Na rozdíl od prokázaných pokusů třetích stran získat prostřednictvím Googlu výhodu, jež jsme popsali ve včerejším článku, je těch ze strany samotných majitelů či správců systému mnohem méně - a spíše se jedná o chyby než o úmyslné zásahy. Ačkoliv tedy někteří komentátoři nepřestávají varovat před možností vnitřního politického zneužití, zatím se žádná taková událost neprokázala. (Jak však říká technologický žurnalista Hassan Fattah, autor knihy o peer-to-peer sítích, "to, co by nám mělo dělat starosti, není cenzura, o které víme, ale ta, kterou nevidíme.") To však nic nemění na tom, že více či méně zdařené úpravy v chodu vyhledávače mohou způsobit - a způsobují - potíže jak svým uživatelům, tak jedincům či firmám na "mínění" Googlu závislým.

Google dance Asi nejznámější a prakticky stále špatně chápanou událostí je tak zvaný Google dance. Jedná se několikadenní proces, během kterého je zhruba jednou za měsíc obnovován index Googlu a přepočítávají se hodnoty zpětných odkazů na stránky (Page Rank). Protože Page Rank je stále rozhodujícím kritériem pro řazení stránek ve výpisu vyhledávání, pravidelně dochází k tomu, že se řada stránek rázem propadne v hodnocení a tím i v nabídce hledajícím uživatelům a naopak některé jiné stránky stoupnou v očích Googlu tak, že je "vytáhne" z předchozí nevalné pozice do popředí. Takový "tanec" nutně vyvolává zmatky nejen pro neznalého hledače (jedním z projevů Google dance je fakt, že jednotlivé servery Googlu umístěné v různých datových střediscích po celém světě vracejí při zadání téhož dotazu různé výsledky podle toho, zda se řídí ještě starým či již nově setříděným indexem). Představuje zároveň klíčový okamžik pro celou jednu profesní vrstvu konzultantů, tzv. SEO (Search Engine Optimization). Jejich prací není nic menšího než péče o stránky klientů tak, aby byly co nejlépe zařazeny do výsledků vyhledávání (hlavně Googlu) a přivedly jim co nejvíce nejzajímavějších klientů. Google dance je pro ně zkouškou, nakolik zvládli poslední kus svého díla, a pro leckteré i řádně stresujícím zážitkem - to když se optimalizace nepovede a prezentace jejich klientů se řítí do zapomnění x-tých stran ve výpisu vyhledávačů spolu s jejich honoráři.


O tom, co všechno může takový "tanec" způsobit firmě spoléhající na vyhledávač jako na primární zdroj svých zákazníků (a takových je stále víc, stačí sledovat nárůst počtu firem podnikajících v internetové oblasti - těm často téměř nic jiného ani nezbývá), svědčí nejlépe známá kauza společnosti Data Recovery Group, popsaná v říjnu roku 2002 na serveru CNET.com:

"Patrick Ahern může dosvědčit jak silný potenciál Googlu, tak tíži podnikání bez něj. Společnost Data Recovery Group, kterou řídí, se minulý rok umísťovala okolo čtvrtého místa v populárním vyhledavači Googlu. V lednu, kdy Google bez vysvětlení společnost z databáze vyřadil, postihl Data Recovery 30procentní propad tržeb."

Celková návštěvnost webu Date Recovery Group se tímto nešťastným vypadnutím z Googlu snížila o 85 procent, což přimělo manažery firmy k procitnutí a přehodnocení vlastní marketingové politiky. Výpadek návštěvníků je nicméně přišel na několik tisíc dolarů v placených odkazech konkurenčního vyhledávače Overture.

To není zdaleka jediný ani poslední případ, kdy změna pohledu Googlu na relevanci stránek některého majitele dokonale zaskočí - stránky s nelegálním obsahem či s uměle navyšovanou návštěvností jsou z jeho indexu vyřazovány denně. Velmi nepříjemné ovšem je, pokud se tak stane bez objektivního zavinění provozovatele postiženého webu. To nemusí spočívat ani ve špatné volbě při výběru SEO konzultanta, sázejícího na nekalé či nefunkční praktiky optimalizace, či webhostingové firmy, jejíž vinou mohou být stránky na nějakou dobu nepřístupné. Díky pozicování stránek ve výpisu, které je silně závislém na Page Ranku, se může snadno stát, že po odstranění zpětných odkazů ze stránek jiných majitelů, vedoucích na sledovaný web, se tento propadne v hodnocení Googlu na místa hluboko pod čarou prvního výpisu. Co je ještě zrádnější a z hlediska vnější manipulace zneužitelnější, je vlastnost Page Ranku, při které u negativně hodnocených stránek vztahuje toto hodnocení i na jiné stránky, na které odkazují. Při kombinaci více takových faktorů se pak komukoliv, kdo je na přílivu návštěvníků z vyhledávačů závislý, může stát něco podobného jako firmě Data Recovery Group, v horším případě se pak stane obětí cíleného záškodnictví konkurence (ať již finanční nebo ideologické).

Chyby technického charakteru Odhlédneme-li od mnohdy vykonstruovaných, spekulativních teorií vnitřního ovlivňování funkcionality Googlu, zůstane kritikům stále nemalá část možných argumentů ke zkoumání v podobě dopadů na výsledky vyhledávání kvůli programovým chybám. Vyhledávací stroj Googlu není nic jiného než program běžící na stovkách počítačů po celém světě, a jak ví každý programátor, program bez chyb není úplný. Přes samozřejmou a poměrně pečlivou snahu firmy vyvarovat se jakéhokoliv přehmatu, v čistě "hrubé" návrhářské a kódovací práci k nim přesto výjímečně dochází. Jedním z projevů může být z pohledu jednoho majitele stránek nespravedlivé znevýhodnění po konci Google dance, může ale jít i o čistě nedomyšlený důsledek některých optimalizačních zásahů. Někteří kritici monopolního postavení Googlu [16] jsou schopní jako jeho zásadní chyby nacházet i jeho jinak oceňované přednosti, jako je technologie Page Rank. Větší kritika se však ozývá spíše po chybách, o jaké psal v říjnu roku 2003 server The Register.

Její vnější projev byl znám již dříve, a sice mezi komunitou uživatelů soutěže Googlewhack. Ta spočívá v nalezení co nejoriginálnější fráze dotazu, po které Google vrátí jediný odkaz. Více účastníků této svérázné zábavy si začalo všímat, že Google vrací jeden či velmi málo odkazů i na dotazy, které, ač nezvyklé, příliš invence nevyžadují a hlavně, Google zároveň

tvrdí, že dotazu vyhovují tisíce výsledků, které však nezobrazí. The Register uvádí sousloví "keyboard bracelet," na které Google vrací řádově jednotky odkazů z "přibližně 49 000", dají se však najít i řady dalších výraznějších příkladů (výsledky se však mohou lišit podle více faktorů včetně toho, kde zrovna se nacházíte). Chyba dostala název GoogleNACK ("Negative ACKnowledgement") a záhy bylo zřejmé, že nejde o náhodu.

S vysvětlující teorií přišel výzkumník Seth Finkelstein. Cituje ji The Register: anti-spamové filtry Googlu, navržené k odrušení falešných odkazů používaných spamery, pornografickými stránkami či sektami, jako jsou scientologové, odfiltrovaly i ostatní servery. "Hledá-li Google kombinaci slov, jsou vysoce hodnoceny stránky s hledanými slovy blízko u sebe. Podobné stránky bohužel často používají spameři, když ji zaplní množstvím vzájemně nesouvisejících klíčových slov," uvedl Finkelstein a dodal: "Technická řešení mohou mít nezamýšlené důsledky." Google tedy do výsledku vyhledávání nezahrne i odpovídající správné odpovědi, protože je vyhodnotí jako podvodné.

Hodnotící algoritmy začal Google používat poté, co se spameři naučili zneužívat jeho do té doby vysoce účinný Page Rank. Spameři se ho totiž naučili klamat tak, že zakládali celé "linkovací" farmy domén, které, často s jinak prázdným obsahem, odkazovaly na jedinou adresu. Programátoři Googlu proto neustále mění vyhodnocovací algoritmy, doplňující tuto metodu, aby ztížili podvodníkům práci; v tomto boji však těžko někdy definitivně zvítězí. Každý faktor, jednou známý, je snadno zneužitelný, s čímž si neporadí žádný vyhledávač.

Společný jmenovatel a jak jej pokrátit Snahou obou zúčastněných stran by měl být stejný cíl: co nejpřesnější zodpovídání dotazů tak, aby hledající našel hledané po co nejmenším možném počtu úkonů. Jsou samozřejmě výjímky mezi uživateli, snažící se získat výhodu v databázi Googlu na úkor druhých či využít jeho schopností k nekalým cílům - a Google na tyto pokusy musí reagovat. Postiženi jsou pak kromě nich i regulérní uživatelé, kteří dostávají na dotazy výsledky, jež tolik nevyhovují jejich potřebám. Na druhou stranu Google je progresivní firma, těžící ze svého postavení maximum, a jeho stratégové dobře ví, že s prostým vyhledávacím strojem již dnes těžko vystačí. Současností je integrace služeb a budoucností jejich nabídka na míru každému člověku. A daří se jim to velmi dobře - tak, jak o tom svědčí čísla v úvodu. V Británii dokonce postavení Googlu a některé jeho chyby (jako posledně zmiňovaný Negative ACKnowledgement) vedly některé komentátory k požadavku po jeho regulaci, podobně jako jsou regulovány telekomunikační operátoři s převažujícím podílem na trhu. K tomuto účelu by měl být zřízen regulační úřad Ofsearch (obdoba britského Oftelu, dohlížejícího na telekomunikační prostředí). Není však příliš jasné, kdo, jakým způsobem a na základě jakých oprávnění by podobnou aktivitu vykonával, a mezi názory na internetovém trhu idejí jde stále spíše o minoritní proud.

Značná část kritiky směřující proti Googlu do značné míry souvisí s jeho symbiózou s komunitou bloggerů. Tradiční novináři při té příležitosti nezapomínají na své argumenty o "nežurnalistické," "nevyužitelné" povaze blogů a samoúčelnosti tohoto vztahu. Blogeři podle nich tvoří jen zanedbatelnou část uživatelů Internetu, avšak dokáží ovlivňovat informace a mínění, předávané většině jen díky tomu, že snadno pronikají do vyhledávacích priorit Googlu. Zvláště silné hlasy s tímto obsahem lze zaznamenat z poměrně vlivného magazínu The Register, který je však pověstný svým nepříliš přívětivým postojem ke Googlu (jeho komentátor Andrew Orlowski už si mezi čtenáři vysloužil přezdívku Google-hater). Bloggeři se zase hájí, že jen využívají potenciál, který jim vyhledávače nabízí, a že jejich pozice odpovídají přirozené potřebě lidí nacházet i jiné zdroje informací, než jsou oficiální a

zavedené internetové a tištěné tituly. Určitě je zajímavé sledovat tyto protichůdné směry uvažování, kus pravdy totiž v sobě skrývají oba dva.

Google je při správném využívání, tedy při nespoléhání se na tento jeden zdroj, skutečně velmi užitečným nástrojem k přístupu k širokému spektru názorů a z hlediska šancí nových zdrojů dostat se do popředí je poměrně demokratický. Kvalitní obsah si do jeho výsledků vždy najde cestu přímým "hlasováním" čtenářů, tedy většinou bloggerů či jiných lidí, uvádějících k němu odkaz na svých stránkách. Je však vždy dobré hodnotit, kdo a proč tento zdroj doporučuje a jakou tedy bude mít hodnotu pro mne. Začínající a malé firmy zase mají k dispozici elegantní a propracovaný reklamní systém Googlu AdSense a AdWords, který umožňuje za minimum financí proniknout s inzercí na vysoce kvalitní místo - na úvodní stranu výsledků vyhledávání či hodně navštěvovaných serverů. Záleží jen na schopnostech každého podnikavce, jak šikovně a relevantně se mu podaří svoji nabídku sestavit.

Přílišné spoléhání se na Google jako zázračný stroj však není cesta vedoucí k ideálu přístupu k informacím. Původní idea zakladatelů a "tvůrců" Internetu, jeho standardů a funkcionality, bylo přímé a interaktivní sdílení informací všemi uživateli bez ohledu na okolní podmínky - tedy kdokoliv měl mít možnost publikovat svoje názory a přidávat je k názorům druhých (např. původní návrh hypertextového jazyka počítal s možností zasahovat do webové stránky vytvořené někým jiným). Současná realita je však zcela jiná. Se zásahem komerčních zájmů a přílivem milionů netechnicky orientovaných uživatelů se Internet roztříštil do vzájemně těžko dosažitelných ostrůvků informací, omezených přístupem na technické, sociální i ekonomické úrovni. Největší bohatství jinak veřejných knihoven a tiskovin je uzavřeno za dveřmi registrovaného přístupu. Lidé zdaleka nevyhledávají zdroje po celém světě, ale preferují opět svoje místní znalostní okruhy. Z řady dříve neplacených služeb se pod vlivem zklamání z internetové horečky konce devadesátých let stávají placené a s tím, jak k Internetu získává přístup větší počet lidí, sílí i tlaky oficiálních institucí po jeho regulaci a kontrole.

Z hlediska tohoto stavu situace je Google stále nejlepším z dostupných nástrojů, jak se k co největšímu množství informací dostat, ne však pro každý případ a pro každého člověka. Přestože indexuje z vyhledávačů na Internetu nejvíce dokumentů, pořád je to sotva třetina všech, které na světové síti jsou. Existují desítky tematicky zaměřených vyhledávačů, se kterými se Google v dané oblasti těžko může rovnat - a nemusí jít jen o problematiku okrajových témat. Důležitou výhodou vyhledávačů pro národní domény je jejich lokalizace a schopnost poradit si s jazykovými specifiky hledaných dokumentů. České Jyxo například umí hledaná slova skloňovat a doplňovat do nich diakritiku. Poctivou hloubkovou rešerši s využitím knihovnických zdrojů Google těžko nahradí, stejně jako se nikdy nestane plně postačujícím jediným zdrojem informací pro opravdové žurnalisty.

Přesto se zdá být mezi lidmi používajícími Internet stále více těch, kdo spoléhají na jeho zdánlivě nepřekonatelnou schopnost nalézt vše potřebné. Noví uživatelé jsou ohromeni jeho možnostmi či se jen nedostanou k příležitostem poznat jiné cesty k informacím a ti pokročilejší už jednoduše nic jiného nehledají, protože "to nepotřebují". Mezi odborníky se pro popis dnešního stavu vžil termín Googlefilie, v originálu Googlephilia. Nejen z příkladů, které jsme zde uvedli, je evidentní, že právě ona stojí na pozadí problémů, které u komentátorů dění na Internetu vyvolávají úvahy o potřebě vyhledávací regulace. Přílišné spoléhání na Google jako jediný smysluplný vyhledávač, přivádějící podstatné množství čtenářů/zákazníků, přináší nejzřejmější potíže firmám, jako se stalo Data Recovery Group, a ve svém důsledku také posiluje pozitivní zpětnou reakci mezi uživateli k preferenci Googlu. S narůstajícím tržním podílem lze pak očekávat i odvážnější touhy ze strany vyhledávače po

více způsobech těžby ze svého postavení (větší diskusi vyvolalo nedávno například zjištění, že Google zřejmě indexuje obsah chatových kanálů na IRC - včetně soukromých rozhovorů. Důvod se nejspíš v dohledné době odhalit nepodaří, nicméně většina názorů se přiklání k variantě, že Googlem takto sesbíraná data budou nabídnuta k prodeji marketingovým agenturám a využita k lepším personalisovaným nabídkám a analýzám uživatelských zvyklostí).

Řešení, které se nabízí - pružný výběr vyhledávače podle oboru či lokalizačních nároků dotazů - nejspíš nebude to, které problém s dominancí Googlu vyřeší. Šlo by hlavně o cestu příliš náročnou pro největší množství lidí, kteří Internet používají. Mnohem pravděpodobnější je nanejvýš pomalý sestup podílu Googlu ve prospěch jiného všeobecného vyhledávače nadprůměrné velikosti: záleží na Yahoo a Microsoftu, ale i mnohých dalších menších strojích, které na svoji slávu možná teprve čekají. Podstatnou výhodou by v dnešním Internetu byl třeba automatický překlad různojazyčných dokumentů a hlavně nápad, jak maximalizovat jednoduchost přístupu k hledanému objektu. Jednou z nevýhod Googlu je totiž paradoxně i jeho gigantická databáze, jejíž přednosti neocení ti, kterým nenabídne hledaný zdroj na prvním výpisu stránek. Zpřesňující a kombinované dotazy byly dobrým nápadem, bohužel jen zlomek hledajících ví, co a jak jim mohou nabídnout. Konec éry Internetu ve znamení Googlu se však docela jistě blíží, z čehož leccos naznačuje i jeho chystaný prodej formou vstupu na burzu (z hlediska ekonomické teorie je vhodné prodej načasovat tak, aby proběhl těsně před vrcholem hodnoty společnosti - a Google měl času na rozhodování i nabídek ke koupi dost). Co přijde dál, není vůbec jisté, nezbývá však než doufat, že další krok vývoje nebude poslední - ať už ve prospěch Googlu, či jiného poskytovatele, koncentrujícího oblibu uživatelů i zdrojů informací.


Změny na mapě vyhledavačůOd začátku roku probíhá agresivní konsolidace na trhu vyhledavačů. MSN sice původně oznámilo, že jejím hlavním konkurentem je Google, ale nyní to vypadá spíše na Yahoo! To kontroluje vyhledavače Fast a Inktomi i reklamu z Overture. MSN se tak stalo kriticky závislým na Yahoo! Do ztráty se propadající AOL se pro změnu váže na Google.

Červenec je horký měsíc a to neplatí jen na počasí, ale také na globální trh vyhledavačů. Už od začátku roku se na něm odehrává ostrá konsolidace. A vezmeme-li v úvahu, že se většinou jedná o společnosti staré asi pět let, částky, které padají za podíly provozujících vyhledavače, jsou opravdu závratné.

Pět hráčů na trhu. Nebo čtyři? Sova v síti uvádí v přehledu vyhledavačů pět základních značek: Fast, Google, Inktomi, LookSmart a Teoma. Teoma v našich krajích není příliš známou, ale s tímto vyhledavačem se setkáte na Ask Jeeves a HotBotu - její výhodou oproti ostatním je identifikace expertních zdrojů ke hledaným klíčovým slovům. Další méně známou značkou je LookSmart, s níž se setkáte třeba na MSN, About.com nebo C|Net.

A právě o LookSmart (a o FindWhat.com) se hovoří jako o možném cíli akvizice ze strany Microsoftu, jehož MSN je nyní při náboru reklamy pro klíčová slova závislá na Overture. Smlouva MSN s Overture vyprší ale až příští rok, takže je docela dobře možné, že Microsoft

http://sovavsiti.cz/weblog/2003/07/24.html#bp20030724_vyhledavace


se pak už bez dalších obchodních partnerů ve vyhledávání obejde, jelikož na začátku července oznámil spuštění vlastního indexovacího robotu.

Spuštěním vlastního vyhledávání se Microsoft vydělí ze vztahů nejen s LookSmart, ale také s dalším hráčem z velké pětky, s Inktomi. Zároveň je také důležité připomenout, že Overture i Inktomi nyní patří do stáje Yahoo! Závislost prosperity vyhledavače MSN na přímém konkurentovi je nepříjmená a Microsoft bude muset přehodnotit, zda jeho hlavním problémem je opravdu Google.

S Inktomi se setkáte také na HotBotu, ale především v Overture. Overture před tím, než byla před dvěma týdny pohlcena Yahoo! za 1,6 miliardy dolarů (což je asi polovina očekávaného letošního schodku českého státního rozpočtu), stihla ještě na začátku roku několik akvizic. V únoru pod Overture přešla AltaVista (nejdéle přeživší vyhledavač), která se pro Overture měla stát testovací laboratoří. Záhy proběhla akvizice, při které Overture ovládla vyhledávací divizi Fast - jinak řečeno AllTheWeb .

Protože si nyní Inktomi a Fast silně konkurují a mají téhož majitele, měli bychom se připravit na sloučení obou, nebo odprodej jedné z technologií.

Hnacím motorem probíhající konsolidace trhu je vyhledavač Google, který je noční můrou všech ostatních hráčů. Do akvizic své konkurence se nehrne. V únoru převzal Pyra Labs, provozovatele projektu Blogger, který přitahuje statisíce uživatelů, a v dubnu byla oznámena akvizice Applied Semantics - společnosti, která provádí aplikovaný jazykovědný výzkum.

Po čtyřech letech existence se Google povedlo dosáhnout 32procentního podílu na vyhledávaných výrazech. Když se k tomu připočte 25 procent, která připadají na Yahoo! a 19 procent od AOL, kde je technologie Google také nasazena, není se co divit, že z něj má nejen MSN se svými 15 procenty strach. (zdroj Reuters)

Čeho se ještě nadějeme Příjmy, které AOL vynáší reklama na klíčová slova od Google a jež nese MSN a Yahoo! spolupráce s Overture, jsou pro internetové projekty v pravdě záchranou. Od Overture se navíc očekává, že záhy zprovozní vlastní obdobu Google AdSense - otázkou je, zda službu založí na indexu Inktomi, nebo Fastu (Fast je pravděpodobnější).

Zahraniční komentátoři se divili, proč Overture souhlasila s převzetím od Yahoo!, když sama v předchozích měsících agresivně expandovala, ale pravda bude nejspíš na straně těch, kteří tvrdí, že příjmy z textové reklamy nejsou až tak závratné, aby Overture mohla zůstat bez vlastního zázemí, a těsná spolupráce s portálem se více vyplatí.

V současné době se odborná média zabývají otázkou využití ochrany patentů. Yahoo! totiž spolu s Overture získala i na 60 patentů spojených s vyhledáváním a komentátoři předpokládají, že soudní spory o jejich využití by mohly situaci mezi vyhledavači dále rozjitřit. Amazon například drží patent, který zcela jistě porušují všichni, kdo ve vyhledavači zobrazují reklamu v pořadí podle její ceny. Microsoft by zase mohl využít svůj patent na boolovské vyhledávání nebo indexaci katalogů. Nejspíš ale k žádným sporům nedojde, protože většina těchto patentů je v příliš obecné rovině a spory by byly vleklé a nákladné.

Daleko zajímavější se mi jeví úvahy nad dalším zmenšováním počtu konkurentů. Do hry by mohl totiž zasáhnout zábavní průmysl: například Disney nebo AOL. AOL sice má nyní potíže

http://asia.reuters.com/newsArticle.jhtml?type=internetNews&storyID=3086614

hlavně sama se sebou, ale mohla by problém zkusit řešit vhodnými akvizicemi nebo naopak prodeji.


PageRank a jeho rozšířeníZpůsob, kterým Google počítá hodnocení na základě odkazů, je známý. Existují ale i mnohé další metody a techniky, jak vypočíst jiné hodnoty nebo jak PageRank vypočíst rychleji. Podíváme se, jak to dělá prototyp vyhledavače Yuntis či české Jyxo, a na závěr získáte možnost si mapu odkazů stáhnout k sobě a vyzkoušet si vše sami.

Vysvětlovat pojem Google PageRank by bylo nošením dříví do lesa - byl už i v českých podmínkách lépe či hůře popsán několikrát. Navíc vzorec, ze kterého vychází, je běžná vysokoškolská matematika a lze jej najít v mnoha učebnicích, dokonce i velmi starých. Na tomto místě PageRank jen opíšu příměrem, který nebývá příliš často uváděn:

Představme si uživatele, který zcela náhodně kliká na odkazy, a tímto způsobem se donekonečna pohybuje po webu. Jen občas (řekněme v 15 procentech případů) místo kliknutí přeskočí na zcela náhodný dokument. PageRank stránky je pravděpodobnost, že se tento náhodný uživatel bude v nějaký okamžik na této stránce vyskytovat.

Vidíte, je to jednoduché. Právě jednoduchost myšlenky a velmi snadný výpočet PageRanku jej předurčily k použití ve vyhledavači - PageRank je možné i pro miliardy stránek vypočíst při minimálních nákladech.

Google PageRank má ale i své stinné stránky. Jeden příklad za všechny: je zaměřen hlavně na rozsáhlé a hustě prolinkované weby. U velkých konsorcií stačí do patičky objevující se na konci několika milionů stránek přidat nový odkaz a účinek je masivní. Menší weby ale takovou možnost nemají a tak, pokud se chtějí prosadit, obvykle shánějí zpětné odkazy po všech čertech, namísto aby se věnovaly tvoření a správě vlastního obsahu. Cestu z tohoto problému pro sebe našly blogy - svojí zásadou odkazovat na zdroje informací a na spřátelené blogy tvoří z pohledu výpočtu odkazových veličin shluk, který sám sebe výrazně posiluje.

Yuntis Jiný přístup k počítání odkazových veličin použil vyhledavač Yuntis, který je výsledkem výzkumného projektu Maxima Lifantseva (který dříve pracoval na klasifikaci stránek pomocí metadat: OpenGRiD).

Yuntis namísto modelu náhodného uživatele používá "volební" systém. Na počátku výpočtu mají stránky (resp. celé weby) přiděleny určité množství hlasů. Ty pak přidělují cílovým stránkám a nebo je předají dál, aby je cizí stránka přerozdělila za ně. PageRank je pouhou podmnožinou tohoto šířeji definovaného modelu, který je podle Maxima Lifantseva vhodnější kvůli tomu, že dobře konverguje (množství přerozdělovaných hlasů při každém průběhu klesá), je lépe chráněn proti zneužití a vytváří i další pomocné veličiny, které PageRank nezná. Také těch přibližně 15 procent, které u výpočtu PageRanku vyjadřují náhodné přeskočení uživatele, u Yuntisu není - možnost přerozdělovat si musí nějaký web "zasloužit", není to pro všechny stejné.

Yuntis ve svém veřejně přístupném prototypu ukazuje tři veličiny:

http://www.ecsl.cs.sunysb.edu/~maxim/OpenGRiD/

http://yuntis.ecsl.cs.sunysb.edu/


Reputation - vyjadřuje, jak hodnotná je stránka, pokud Yuntis považuje všechny odkazy jako podporu reputation a credibility.

Credibility - vyjadřuje, jak důležitá/důvěryhodná je stránka při určování reputation a credibility všech stránek.

Portality - vyjadřuje, jak snadné je z této stránky přes odkazy dosáhnout mnoho stránek s vysokou reputation.

Yuntis pracuje jak na úrovni jednotlivých stránek (URL), tak i na úrovni autorských oblastí - všechny tři výše uvedené veličiny počítá oběma způsoby. Více viz jeho výzkumné studie.

JyxoRank České Jyxo, na kterém pracuji, také používá svůj způsob hodnocení stránek podle odkazů. Má některé společné znaky s výše uvedenými veličinami: Je počítané na základě všech odkazů v databázi (mimochodem, dnes ráno to bylo 776.115.456 hyperlinků). A je počítané iterativně, tedy několika průchody.

Přináší ale ještě jeden nový koncept: dívá se, kdo na danou stránku odkazuje. Pokud máte tři odkazy na nějakou cílovou stránku, Google prostě sečte zlomky z PageRanků odkazujících stránek, a to je PageRank cílové stránky. Jyxo se ale raději podívá, co jsou ty tři stránky zač a co mají společného či rozdílného - zkoumá jejich domény a IP adresy. Pak preferuje hodnocení několika nezávislými zdroji.

Příklad z reálného života to objasní lépe: Pokud vám Petr, Dominika a Martin doporučí nějakou knihu, tak má toto hodnocení větší váhu, než když vám knihu doporučí sice jenom Petr, ale za to hned třikrát po sobě.

Takový výpočet je sice složitější na naprogramování i na hardware serveru (nestačí si jen zapsat jedno číslo, ale musíte si ještě pamatovat, kdo onu stránku již doporučil), ale výsledkem je spravedlivější ohodnocení dokumentů a z toho plynoucí větší přesnost vyhledávání. Největším přínosem je ale odolnost vůči zneužití. Milion stránek (které určitým způsobem odkazují na sebe navzájem i na nějakou cílovou stránku) si na webu může zřídit kdokoliv a pokud je Google zaindexuje, tak si tím onen člověk zvýší PageRank (díky bonusům z náhodných přeskoků, které jsou přímo úměrné počtu stránek). Zato pořídit si milion domén a IP adres prostě není ekonomicky výhodné.

Jak počítat rychleji Nedávno vydali studenti na Stanfordu tiskovou zprávu, informující o některých technikách, které umožňují zrychlit výpočet PageRanku. Jsou to zčásti věci, které byly známé už pár let, nicméně zpráva získala nečekanou publicitu a dokonce i v Čechách se ji novináři pokoušeli několikrát interpretovat (z čehož vznikaly značně dadaistické výtvory, které kombinací špatného překladu, nepochopení a tvořivého domýšlení tvrdily něco zcela odlišného než původní zpráva).

Je to možná až příliš technické, ale abych nějak odčinil zmatení, které vyvolaly ostatní články, tak jen stručně vysvětlím, čeho se ona zrychlení týkala:

BlockRank - stránky se na Internetu vyskytují v určitých shlucích (blocks), které jsou hustě prolinkované. Například zde na Lupě je mnoho odkazů na jednotlivé články, diskuse, archiv a některé služby. Odkazů mimo Lupu (nebo weby Internet Infa) je oproti nim málo. Studenti si tedy řekli - pojďme nejdřív spočítat ty odkazy v rámci

http://www.nsf.gov/od/lpa/news/03/pr0356.htm

http://jyxo.cz/

http://www.ecsl.cs.sunysb.edu/~maxim/OpenGRiD/Papers/

jednoho webu, když je máme tak pěkně pohromadě, a pak teprve spočítáme vše ostatní s tím, že Lupu budeme brát jako jeden shluk. Takto je možné teoreticky zrychlit výpočet o 300 procent.

Extrapolace - PageRank se normálně počítá několika průchody a jeho odhad se postupně zpřesňuje. Studenti udělali několik zjednodušujících předpokladů, které jim umožnily hádat dopředu (tedy rychleji).

Adaptivní PageRank - některé hodnoty PageRanku se již při pozdějších průchodech příliš nemění a tak je možné je přeskočit a soustředit se na to, co ještě nebylo spočítáno.

Tato zrychlení se netýkají Google (je to nezávislý výzkum) ani neovlivňují rychlost vyhledávání.

Zkuste si sami Nedokážete-li si představit, jak takové propojení webu pomocí odkazů vypadá, můžete se prostě podívat na obrázek z galerie Hala Burche:

Pokud je vám líto, že nevlastníte žádný vyhledavač a tak si nemůžete hrát s počítáním PageRanků, zkoumat strukturu propojení webu nebo vytvářet podobné obrázky, tak se podívejte na WebGraph. Odtud si můžete stáhnout nějaké programy, ale hlavně seznam odkazů mezi sto miliony dokumentů. Velmi zajímavé je, že seznam je zkomprimován na pouhé tři bity na odkaz (!). K docílení takového zmenšení byla použita myšlenka obdobná výše uvedenému BlockRanku - stránky tvoří shluky a je možné použít méně bitů na zapsání odkazů na blízké stránky.


Google PageRank - slavný trik velkého kouzelníkaPageRank stojí za popularitou vyhledavače Google. Hodnocení stránek na základě počtu a kvality odkazů je součástí Googlu od počátku a postup jeho výpočtu se zatím nezměnil. PageRank má mnoho kritiků, kteří poukazují na možnosti zneužití. I přesto se PageRank nasazuje i mimo samotný fulltext, nyní podle něj například řadí záznamy v katalogu Atlas.

Google a PageRank patří nerozlučně k sobě, dalo by se říci, že PageRank je srdcem Googlu. Vyvinuli jej zakladatelé Googlu Larry Page a Sergey Brin na úplném počátku, a přestože se od té doby vyhledavač hodně změnil, princip PageRanku zůstává stejný jako na počátku.


http://webgraph.dsi.unimi.it/

http://research.lumeta.com/ches/map/gallery/

Jak se Google PageRank počítá PageRank je hodnocení stránky na základě kvality odkazů, které na ni vedou. Hodnota PageRanku představuje součet PageRanků, které jsou stránce předány ze stránek, které na ni odkazují. Kdybych se měl pokusit vysvětlit, jak se PageRank počítá na abstraktní rovině, patrně byste článek nedočetli. Proto raději uvedu příklad:

Pokud má stránka A PageRank 5/10 a obsahuje 50 odkazů, pak každý odkaz předá cílové stránce právě padesátinu PageRanku zdrojové stránky, tedy A50 = 0,1/10. PageRank cílové stránky B se získá součtem všech PageRanků předaných s odkazy. Aby cílová stránka B získala také PageRank 5/10, muselo by na ni vést padesát odkazů s PageRankem 0,1/10. Výše PageRanku nijak nesouvisí s obsahem stránek (výjimkou jsou diskvalifikační body za unfair přístup k vyhledavači). A to je v kostce všechno, přátelé.

Jakých hodnot Google PageRank nabývá Pokud si říkáte, že by vás zajímalo, kdy se vezme ten úplně první PageRank v řadě, pak vás musím ubezpečit, že se tu nepohybujeme v říši kouzel a perpetuí mobilí, nýbrž na pevné půdě matematiky. PageRank uváděný jako desetinný zlomek je ve skutečnosti jen zástupným symbolem. Součet všech PageRanků by měl být vždy konstantní. Řekněme tedy, že absolutní součet všech PageRanků je právě 1. Relativně se tedy dá říci, že se PageRank se vzrůstajícím počtem zaindexovaných stránek stále více rozmělňuje a PageRank každé stránky je zlomkem konstantního PageRanku - opravdu velmi nízkým desetinným číslem blízkým nule.

Pokud pak interval mezi 0 a 1 rozdělíme na deset částí, pak podíly PageRanku v každé části můžeme převést na X/10. Takové číslo se pak docela dobře ukazuje v Google Toolbaru nebo v "teploměru" na Google Directory.

K čemu je Google PageRank dobrý Google PageRank se uplatňuje při řazení výsledků vyhledávání. Při vyhledávání se sice Google řídí výskytem klíčového slova na cílové stránce a v textu odkazů na ni vedoucích, ale pokud získá několik stránek přibližně shodně relevantních k zadanému dotazu, sáhne Google pro PageRank a výsledky podle něj seřadí.

Pánové Page a Brin předpokládají, že čím více je na stránku odkazováno z kvalitních zdrojů, tím kvalitnější poskytuje obsah. Google nepatří k nejstarším vyhledavačům, ale prosadil se z počátku právě především v důsledku použití PageRanku k řazení relevantních odkazů. Autoři Googlu se domnívají, že PageRank nelze zfalšovat - nikdo přeci nechce odkazovat na nekvalitní stránky.

Protože oba autoři vymýšleli Google na vysoké škole, lze předpokládat, že se inspirovali akademickým citačním indexem vědeckých publikací. Ten funguje na podobném principu. Čím častěji nějaký vědec cituje určitou vědeckou publikaci, tím závažnější dopad ona publikace na vědu má. Na tomhle principu stojí celá věda o měření vědy - scientometrie.

Google PageRank našel druhotné využití při různých příležitostech, kdy je potřeba srovnávat webové stránky. Podle výše PageRanku například začal řadit záznamy v sekcích katalogu Seznam - blíže se tomuto tématu věnuji ve článku Co se děje s portálovými katalogy.

PageRank záhy poté, kdy se proslavil, adoptovaly téměř všechny moderní vyhledavače. Někteří kritici PageRanku vytýkají, že je ovlivnitelný různými dohodami, placenými odkazy nebo odkazovými sítěmi. Jedna z prvních věcí, kterou vám doporučí konzultant pro SEO,

http://digiweb.cz/index.php?p=i00000_d&a%5Bid%5D=12882280&a%5Barea_id%5D=10074060

http://directory.google.com/


bude dohodnutí velkého počtu odkazů vedoucích na vaši stránku. Například i zde na Lupě v levém sloupci můžete najít odkaz, který se zaměřením Lupy nesouvisí, zato však pomáhá budovat PageRank jisté cestovní kanceláři.


Google koupil firmu na rozpoznávání smyslu textuGoogle učinil další významný tah v soutěžení s Overture, když ve středu oznámil akvizici společnosti Applied Semantics, která se zabývá praktickým využitím analýzy smyslu textu. Google s novou firmou získává i její produkty AdSense a KeywordSense, které připojují reklamu k textu podle jeho smyslu.

Od středy se mezi konzultanty pro optimalizaci na Internetu nemluví o ničem jiném než o nové akvizici, kterou provedl Google. Google odkoupil společnost Applied Semantics, jež se už čtyři roky zabývá analýzou obsahu pro spojení s vhodnou tematicky zaměřenou reklamou. Jinými slovy, software Applied Semantics pozná, kdy Jaguár neoznačuje zvíře ani značku automobilu, ale vývojový stupeň operačního systému, a vhodně zařadí reklamu na výrobky firmy Apple.

Zjednodušeně řečeno, vtip je v tom, že firma Applied Semantics vytvořila pod názvem CIRCA patentovanou bázi z milionů slov, která jsou uspořádána do skupin a popsána podle svého smyslu v běžném jazyce. Podobně je uspořádán také katalog Open Directory Project.

K čemu Google může software na analýzu obsahu použít? Od chvíle, kdy Google koupil systém pro správu weblogů Blogger, zobrazují se na freewebu BlogSpot, kam jsou weblogy často umisťovány, reklamy svázané s obsahem daného blogu. Na weblogu Nárazník se proto často zobrazují reklamy v češtině, nebo alespoň na Českou republiku zaměřené. Googlu už dochází, že daleko zajímavější by bylo zobrazovat tu reklamu, která by se úžeji týkala právě obsahu blogu. Nárazník například píše o hudbě, takže hudební reklama by se tu vyjímala lépe než odkaz na pražské hotely.

Druhým místem, kde se spojování obsahu s reklamou může objevit, je přímo vyhledavač Google. Ten nyní poskytuje textovou reklamu vázanou na klíčové slovo. Reklama se nyní ještě nezobrazuje na všech stranách s výsledky vyhledávání, protože přiřazování přes klíčová slova je poměrně přesné. Pokud by měli inzerenti možnost definovat oblasti, kde se mají reklamy zobrazovat, o něco vágněji, anebo naopak u přeplacených klíčových slov přesněji, mohl by Google ještě více z reklamy profitovat. A právě tento důvod za akvizicí vidí komentátoři zahraničních listů.

Ovšem Google může technologii Applied Semantics využít i k vylepšení svého hlavního produktu - vyhledavače. Googlu by se hodilo, kdyby uměl slučovat zdroje na webu do skupin podle jejich společného tématu. Při řazení výsledků vyhledávání by pak mohl lépe hodnotit zdroje s odkazy spojujícími stránky v rámci jedné skupiny. Dnes si takový postup ještě příliš dovolit nemůže. Posuďte sami, nakolik je rozumné Linux v kanceláři, Konferenci o chemii a server o koních spojovat do stejné skupiny s Internet Infem.

O mnoho lépe na Google zatím nefunguje ani služba Google Sets, která je zatím dostupná jen na laboratorních stránkách. Pokud Googlu sdělíme, že nás zajímá skupina klíčových slov spojená s apple a jaguar, dostaneme velmi podivné výsledky. Namísto toho, aby Google

http://labs.google.com/sets?hl=en&q1=apple&q2=jaguar&btn=Large+Set

http://labs.google.com/sets

http://www.google.com/search?hl=cs&q=related%3Awww.iinfo.cz%2F

http://www.root.cz/tutorialy/linux_v_kancelari/

http://naraznik.blogspot.com/

http://www.dmoz.org/

http://www.appliedsemantics.com/

http://c.moreover.com/click/here.pl?e69181848&e=6517


odhalil, že nás zajímají jen klíčová slova spojená s operačním systémem firmy Apple, je schopen nabídnout nám pomeranče, banány, Audi, BMW, Microsoft a Adobe - Google jakoby nechápal, co má Apple s jaguárem společného.

V krátkodobém horizontu ale půjde Googlu spíše o cílení reklamy. Jak se ve svém článku na SiliconValley zmiňují Pamela Parkerová a Michael Singer, Applied Semantics patří mezi deset největších (měřeno obratem) obchodních a technologických partnerů Overture, největšího konkurenta Googlu. Smlouva s Overture vyprší Applied Semantics až v srpnu příštího roku.

Akvizice Applied Semantics je pro Google poměrně velká. Firma Applied Semantics zaměstnává kolem 40 lidí a Google se rozhodl, že společnost nebude stěhovat, ale zřídí v Santa Monice, sídle Applied Semantics, jižní vývojářské centrum. Bude to už třetí vývojářské centrum poté, kdy Google nedávno oznámil otevření vývojářského centra na východním pobřeží USA v New Yorku. Další podrobnosti akvizice nejsou dosud známy.


Google Dance - když se dá vyhledavač do tanceDance je období, kdy se na Google obnovuje index a přepočítává PageRank. V tuto dobu některé ze serverů Google mají už k dispozici nový index. Vzhledem k tomu, že svázání domény www.google.com s určitým serverem se mění co pět minut, můžete během krátké doby na stejně položený dotaz dostat od Google dvě různé odpovědi.

Pod pojmem Google Dance se skrývá obávaná událost, kdy přibližně jednou za měsíc dochází k obnovování indexu fulltextového vyhledavače Google. Během Google Dance se přepočítávají zpětné odkazy na stránky (odkud vedou odkazy na stránku), a tím pádem také PageRank (ohodnocení váhy stránek, z nichž vedou zpětné odkazy). Vzhledem k tomu, že Google se podle PageRanku řídí při řazení výsledků vyhledávání, očekávají konzultanti SEO každý Google Dance se zatajeným dechem. Pokud totiž klesne stránce PageRank nebo naopak stoupne konkurenčním webům, posune se stránka ve výsledcích vyhledávání hlouběji.

Google Dance není okamžik, ale období mezi zahájením a ukončením přepočítávání PageRanku a obnovy indexu. Jedná se o náročnou operaci, která trvá několik dnů. Po dobu Google Dance se střídavě výsledky vyhledávání na Google řadí podle starého a nového indexu. Na dvakrát po sobě zadaný dotaz můžete dostat zcela odlišnou odpověď - Google tančí. V některých zdrojích se uvádí, že při Google Dance dochází ještě k výraznějším změnám, například k úpravám vyhledávacího algoritmu a vah. Změny řazení výsledků v důsledku přepočítání PageRanku se od změn způsobených úpravou algoritmu rozeznávají těžko.

Google Dance se projevuje tím, že jednotlivé servery umístěné v různých datových střediscích vracejí při zadání téhož dotazu rozličné výsledky. Ať už v řazení, nebo v počtu nalezených zpětných odkazů. Středisek je osm, respektive devět (o curyšském středisku www-zu se tvrdí, že je vyřazeno z provozu), a dokud se jejich výsledky liší, Goole tančí. Současný Google Dance podle informací konference o SEO začal 6. května, a pokud zkusíte porovnat výsledky ze všech osmi středisek, zjistíte, že středisko www-in se od ostatních stále ještě liší, takže Google ještě nejspíš nedotančil. K porovnávání výsledků ze všech středisek můžete využít rozhraní serveru Google Dance.

http://www.google-dance.com/

http://seo.nawebu.cz/


http://siliconvalley.internet.com/news/article.php/2195901

http://siliconvalley.internet.com/news/article.php/2195901

Index Google je rozložen na asi deseti tisících linuxových serverech v několika střediscích, která jsou rozprostřena po celém světě. Dotaz položený u www.google.com zodpovídá vždy některé ze středisek v závislosti na tom, které bylo přiřazeno k obsluze jmenným serverem. Vzhledem k tomu, že záznam o směrování domény na určitou adresu IP se má měnit každých pět minut, stane se, že dvakrát po sobě týž dotaz témuž uživateli zodpoví jiné středisko. Na rozdíl od serveru www jsou záznamy o adresách IP pro www2 a www3 stálejší, takže srovnáním těchto tří serverů můžeme získat podobný obrázek o Google Dance jako při srovnávání středisek. Na www2 a www3 bývá index obnovován dříve než na serveru www, takže konzultanti SEO se sem chodí dívat, jak budou vypadat výsledky po skončení Google Dance.

Výsledek Google Dance je důležitý ve vztahu k tzv. Deepbotu. Pro Google prochází web dva typy robotů. Ten první je označován jako Freshbot a přichází z adresy začínající číslicí 64. Jeho úkolem je zajistit aktuální data pro vyhledávání ještě před vypočtením PageRanku pro danou stránku. Díky Freshbotu se mohou nově vzniklé stránky objevit na vysokých pozicích ve výsledcích vyhledávání ještě před zahájením obnovy indexu. Freshbot navštěvuje především často obměňované nebo nové stránky (weblogy, zprávy). Průběžnému udržování aktuálních stránek v indexu se v hantýrce konzultantů SEO říká Everflux.

Everflux je nevyzpytatelný, umožňuje uplatnění nových stránek ve vyhledávání ještě dříve, než pro ně může být odvozen PageRank. Stránka se díky němu může dostat ve výsledcích vyhledávání na krátkou dobu velmi vysoko, ale brzy může z výsledků také úplně vypadnout. Po skončení Google Dance je nasazen regulérní robot, označovaný jako Deepbot, s adresou začínající číslicí 216. Deepbot na základě výše PageRanku prochází weby v různé hloubce (čím vyšší PageRank, tím hlouběji se Deepbot pouští) a vytváří základ pro další obnovu indexu a přepočítání PageRanku.

Máme se obávat Google Dance? Google Dance se projevuje negativně u webů, které si uměle zvyšují počet odkazů generováním krátkodobých odkazů, a ve svém důsledku znevýhodňuje nové stránky. Pokud tedy dané stránce od posledního indexování klesl počet zpětných odkazů nebo PageRank, pak ji Google Dance připraví o vydobyté pozice ve výsledcích vyhledávání. Jestliže naopak odkazy z kvalitních zdrojů přibyly a pokud se konzultantovi SEO podařilo po předchozí aktualizaci indexu vylepšit strukturu informací na stránkách, pak Google Dance může stránku katapultovat ve výsledcích hodně vysoko, a hlavně na trvalo... nebo alespoň do dalšího tance.


Co opravdu očekáváme od vyhledávačů?[eWorkshop] Po více než roční přestávce bychom se rádi vrátili k jedinečné tradici eWorkshopů, které pro Lupu psal Jiří Donát. Jejich princip je jednoduchý: Jiří Donát vždy formuluje úvodní problém a všechna následující pokračování pak (patrně obden) vycházejí ze závěrů čtenářské diskuse pod článkem, takže neváhejte a diskutujte.

Dnešní web je studnicí hodnotného obsahu - jakékoliv i sebemenší zlepšení v jeho organizaci a využívání by mělo zásadní význam pro lepší zpřístupnění tohoto obsahu a zvýšení užitné hodnoty webu jako celku. To by však vyžadovalo změnu používání webu, tedy zásah do života všech jeho uživatelů. Tento úkol není triviální a z prvního pohledu se může zdát i nemožný. Přesto se v našem eWorkshopu pokusíme cestu najít.


http://dance.kunden-efactory.de/

Je jen přirozené, že díky své obrovské popularitě je web lákavým cílem pro řadu lidí i firem, kteří by jej chtěli transformovat. Web totiž ještě zdaleka nedosáhl možností, které principielně umožňuje. Obrovským lákadlem je zejména obsah, který je již dnes na webu k dispozici. Tohoto obsahu by bylo možné využít k řadě služeb, včetně nových komerčně úspěšných produktů. Jelikož je ale web tak masově rozšířeným nástrojem, každá zásadní změna bude vyžadovat vytvoření nového standardu a akceptaci tohoto standardu miliony stávajících i budoucích uživatelů webu. Je takový úkol vůbec schůdný?

Tři skupiny uživatelů webu Účastníky webu můžeme rozdělit do tří základních skupin: tvůrce obsahu, provozovatele vyhledávačů a uživatele obsahu. Jakýkoliv standard, který by měl mít schopnost zlepšit stávající využívání webu, by se musel být schopen prosadit do celého webu, tedy do všech zmíněných skupin. Situace se naštěstí podstatně zjednodušuje tím, že všechny tyto skupiny na sobě vzájemně závisejí. Postačí tedy, pokud se standard prosadí aspoň do jedné z nich - ty zbývající skupiny se zákonitě přizpůsobí. Kudy ale vede "cesta nejmenšího odporu"? Zdá se, že úzkým hrdlem celého systému je právě skupina "vyhledávačů". Jak uživatelů, tak i tvůrců je totiž hodně; dominantní vyhledávač je však dnes jediný a vždy tomu tak bude. Vyplývá to nikoliv z komerčního úspěchu Google, ale přímo z podstaty vyhledávačů a jejich role na webu. I v případě, že v budoucnu přijde o svoji výsadní pozici Google, zaujme jeho místo někdo jiný. Tento scénář je přirozeně obrovským lákadlem pro internetové podnikatele i investory a vysvětluje, proč se dnes právě do vyhledávačů upírá tak obrovská pozornost. Podívejme se proto na tuto oblast i my v našem eWorkshopu. Zároveň tím volně navážeme na článek Pavla Housera z minulého týdne.

Pokusme se tedy odpovědět na zásadní otázku: jaký nový standard by se měl do webu zavést a proč? Matně tušíme, že "jakékoliv zlepšení" webu by výrazně zvýšilo hodnotu celého dnes již existujícího internetového obsahu. Kde ale začít?

Příčiny úspěchu webu Začněme tím, že se podíváme na dnešní web a pokusíme se učinit několik pracovních závěrů vysvětlujících jeho obrovský úspěch a nastiňující možnosti jeho budoucích změn:

1) Každý nástroj či produkt, který se skutečně hromadně rozšířil, toho dosáhl díky tomu, že se "vymkl z ruky" svým tvůrcům. Příkladem toho je samotný Internet, služba WWW, ale například i řada výrobků a navazujících služeb z oblasti spotřební elektroniky - například celý (dnes zanikající) řetězec klasické fotografie, počínaje výrobci fotoaparátů a konče službami fotosběren.

2) U produktů, které se "vymkly kontrole" svých tvůrců, je velmi obtížné prosazovat jakýkoliv nový standard. Neznamená to, že se o to nikdo nesnaží - ve svém výsledku však tyto snahy nebývají úspěšné, neboť setrvačnost trhu je příliš velká a změnám zabraňuje. Dokonce i ty standardy, které formálně projdou a jsou akceptovány, nemusí být využívány způsobem, který jejich tvůrci zamýšleli. Důkazem jsou "nepochopené" sémantické značky v HTML, ale v případě zmíněné fotografie i vcelku nedávné snahy přinést nový formát, který by dokázal vylepšit a nahradit kinofilm.

3) Produkty, které se "vymkly kontrole", žijí svým vlastním životem, který v podstatě kopíruje mechanismus přirozeného výběru známý z přírody. Jednotlivé "prvky" či "komponenty" (tedy jednotliví účastníci) těchto produktů v něm bojují o své místo a

důležitost se všemi ostatními. Pokud tedy máme mít vůbec šanci masově úspěšný produkt ovlivnit a změnit, musíme výše zmíněný mechanismus pochopit a využít.

Web: tvůrci, uživatelé, vyhledávače Podívejme se nyní na to, jak popsaný mechanismus funguje v případě webu. Jak už jsme uvedli, jednotlivé komponenty webu můžeme rozdělit do tří hrubých skupin: webový obsah, vyhledávače, uživatelé. Jakýkoliv standard, který by měl mít schopnost se prosadit do celého webu, se musí být schopen prosadit aspoň v alespoň jedné z těchto skupin. Protože na sobě tyto tři skupiny úzce závisejí, ostatní dvě skupiny se samy přizpůsobí.

Kudy tedy vede cesta nejmenšího odporu? V této chvíli se jako jasný kandidát rýsuje skupina "vyhledávače" - dominantní účastník této skupiny má totiž jedinečnou možnost ovlivnit vlastnosti celé své skupiny, a tím i vlastnosti a chování obou zbývajících skupin. Ustanovení standardu pro web by tedy bylo nejjednodušší právě v této vrstvě.

Analogie s přirozeným jazykem: tvůrci, uživatelé, zesilovače Web nabízí zajímavou analogii s přirozeným jazykem. Také ten má řadu tvůrců a uživatelů; roli "vyhledávačů" bychom zde mohli chápat obecněji: v přirozeném jazyce ji zastávají jakékoliv "zesilovače", tedy technické prostředky či instituce, které mají "moc hromadně ovlivnit způsob používání jazyka". Nechceme zde jít do podrobností, to by byl námět přinejmenším na nový článek, ale takovými zesilovači mohou být zejména:

A) Oficiální instituce (např. Ústav pro jazyk český), které pak svůj vliv prosazují prostřednictvím vzdělávacího systému, vydavatelů a novinářů. Vydávají například závazná pravidla pravopisu, která musí být dodržována jak ve školách, tak i v médiích, a která tedy mají vliv na širokou veřejnost - uživatele jazyka.

B) Zajímavou novou skupinou "zesilovačů" jsou také informační systémy a jejich tvůrci. Pokud udělá například programátor, který provádí lokalizaci nejrozšířenějšího textového procesoru do češtiny, chybu, i on využije svoji moc široce ovlivnit používání jazyka. Programátor například ponechá v textovém procesoru omylem pravidlo, že po tečce musí být vždy velké písmeno, neboť jde o začátek věty. Bez ohledu na to, že čeština zná řadové číslovky, začne textový procesor tuto "chybu" trpělivě a hromadně opravovat všem svým uživatelům. Výsledkem může být, že se jednoho dne začnou psát měsíce s velkými písmeny, neboť právě ty se obvykle vyskytují v datu po řadové číslovce.

Pojďme se podívat na další analogie. V přirozeném jazyce vznikla určitá pravidla (říkáme jim gramatika), při jejichž dodržení je text srozumitelný ostatním uživatelům. Text mimochodem zůstává srozumitelný a použitelný i při "mírném porušení" těchto pravidel. To je jeho důležitý rys: bez něj by se jazyk nevyvíjel a nezdokonaloval. Gramatická pravidla jsou dost volná a navíc se, jak už jsme uvedli, v průběhu používání adaptivně upravují podle zvyklostí většiny uživatelů. Pravidla, která regulují web, jsou velmi podobná gramatickým pravidlům jazyka: tvoří je těch pár značek, které musí dokument obsahovat, ve smyslu, v jakém jsou ve většině dokumentů použity (nikoliv tedy v tom smyslu, v jakém byly myšleny jejich tvůrcem). Neméně důležitou součástí jsou však i nepsané zvyklosti, jak webové stránky vytvářet a formátovat.

A nyní se již dostáváme ke klíčové otázce našeho článku. Jakým způsobem se může změnit web? Jak využít zesilovací schopnosti vyhledávačů?

Tři cesty ke změně Nejsložitější cestou by byla hromadná změna chování jeho uživatelů. Většina uživatelů by se spontánně rozhodla k tomu, že budou web používat trochu jinak než doposud. Například by se rozhodli důsledně využívat všech zpětných vazeb, které jim dnešní uspořádání webu nabízí. Začali by dobrovolně trávit hodiny a dny tím, že by tvůrcům nejrůznějších vyhledávačů posílali co nejobjektivnější hodnocení obsahu či technické kvality jejich stránek; rádi by se zúčastňovali práce na katalogizaci stránek na nejrůznějších portálech a vyhledávačích, případně by pravidelně a přitom pečlivě vyplňovali feedback na různé vyhledávací dotazy různých vyhledávačů. Taková změna chování uživatelů by zcela jistě vedla k zásadnímu zkvalitnění orientace na webu.

Jen o trochu méně složitým způsobem by byla cesta přes tvůrce webového obsahu: provozovatelé serverů a tvůrci webových stránek by se najednou rozhodli, že budou používat web jiným způsobem než doposud. Například by tedy začali důsledně používat "sémantické" značky. Činili by tak způsobem, kterým byly značky původně zamýšleny, a navíc by dokázali být v této své činnosti zcela konzistentní. Každý tvůrce internetového obsahu by tedy značku chápal a používal stejně jako jiní tvůrci, čímž by vznikl konzistentní a ihned použitelný systém pro zlepšení dostupnosti internetového obsahu. Někteří tvůrci by se chopili i stávajících dokumentů a značky by v krátké době doplnili také do nich. Toho by se hned chytli vyhledávače i koncoví uživatelé a web by začal být mnohem "lepším místem k životu".

Přivést Mohameda k hoře Přejděme nyní k nejjednodušší cestě - k cestě vyhledávačů. Tato cesta je ale nejjednodušší "pouze" z jediného hlediska: nevyžaduje mýtickou masivní spolupráci stovek milionů uživatelů či desítek milionů aktivních tvůrců Internetu, které najednou osvítí duch dobrodiní a nezištné práce pro kolektiv ostatních uživatelů Internetu, a využije zesilovací schopnosti vyhledávačů. Tato cesta je tedy zároveň jedinou realistickou cestou. Ze všech ostatních pohledů je ovšem tato cesta tou nejsložitější. Musíme se totiž vypořádat s obsahem Internetu, jaký je, s uživateli, jací jsou, a samozřejmě i s jejich návyky, které jsou daleko vzdáleny od chování "optimálních" uživatelů, kteří by přece pečovali o to, aby dodali do systému co nejvíce kvalitní a relevantní informace. Musíme tedy počítat s reálným životem: uživatelé jsou ochotni provést jakoukoliv práci pouze v situaci, kdy ji potřebují sami využít; provozovatele stránek donutí k jakékoliv činnosti pouze fakt, že potřebují zvýšit užitek ze stránek pro své vlastní podnikání. Buďme tedy konkrétní: uživatelé dodají do systému relevantní informace pouze tehdy, když tím zároveň zvýší informační hodnotu Internetu pro své vlastní využití; tvůrci stránek budou do jakékoliv změny investovat energii pouze tehdy, když to zvýší návštěvnost jejich stránek či zpřesní zacílení na žádanou skupinu uživatelů.

A je to vaše. A právě tato cesta je tou jedinou možnou. Pojďme se tedy v naší následné diskusi tyto body konkretizovat a zkusit formulovat návod či doporučení tvůrcům vyhledávačů. Pojďme se podívat konkrétně na situace, ve kterých nám "Internet" nepomohl, ač by mohl či měl. Vyloučíme případy, kdy na Internetu hledaná informace nebyla a podíváme se pouze na situace, kdy tam byla, ale my jsme ji nedokázali najít, nebo jsme ji našli až po velké námaze, případně jsme k ní dospěli čirou náhodou, bez pomoci vyhledávačů. Pojďme si tedy položit tuto otázku: V jakých oblastech vyhledávání dnešní vyhledávače selhávají a proč?

A rovnou ji můžeme doplnit ještě jednou podotázkou: Jak by vyhledávače mohly "donutit" uživatele k tomu, aby jim poskytovali relevantní informaci o kvalitě jejich vyhledávání či

dokonce o kvalitě a užitečnosti jednotlivých stránek? A jak by mohly "donutit" tvůrce k rozumné míře zvýšení organizovanosti jejich stránek?


Google: Víme, co hledáteNa začátku října proběhla médii na webu zpráva o další akvizici. Google koupil začínající podnik Kaltix. Společnost, která vznikla na univerzitě, z níž pocházejí i zakladatelé Googlu, se věnuje vývoji personalizovaného vyhledávání. Co si však pod takovou personalizací vyhledávání v dnešní době představit představit?

Vyhledavače obecně mají velký problém s nejednoznačností jazyka. Homografa (stejně psaná slova s odlišným významem - pozn. autora) zanášejí chyby do výsledků vyhledávání. Technicky vzato, hledáte "can" a vyhledavač našel "can". Ovšem jednou je "can" naprosto redundantní pomocné sloveso, podruhé jde o plechovku. Co hledáte? Vyhledavače se s podobnou otázkou dosud neuměly vypořádat.

Postup, na nějž sází Kaltix, vychází z předpokladu, že lidé používají slova v určitém významu v závislosti na osobnostních předpokladech. Například pro fanouška amerického fotbalu je "panther" (pražský fotbalový klub) něco zcela jiného než pro uživatele počítače Apple (kódové označení verze OS) nebo zoologa (kočkovitá šelma). Lidé obvykle vědí, že slovo má více významů, ale přesto lze předpokládat, že význam z okruhu osobního zájmu bude nejspíše tím, co hledají.

Jak může vyhledavač získat váš osobnostní profil? Těch řešení existuje několik:

1. Špionáž Při indexování je ze stránky webu pořízen extrakt klíčových slov. Pokud by vyhledavač měl možnost monitorovat uživatele, mohl by z extraktů dát dohromady obvyklá klíčová slova a jejich významový kontext. Poté by vyhledavač mohl sestavit poměrně přesný obraz témat, jež vás jako uživatele na webu zajímají. K tomu účelu vznikají tezaury s tematicky propojenými výrazy. Srovnáním historie navštívených stránek u více uživatelů se pak dá odvodit, které další stránky jsou pro člověka s podobným profilem zajímavé. Například Alexa umí odpovědět na otázku, jaké stránky ještě navštěvují čtenáři DigiWebu.

Špionáž je náročná, a pokud k ní některý vyhledavač sáhne, patrně nasadí distribuovaný systém, který pro výpočty osobních profilů bude využívat přímo výpočetní kapacitu počítače uživatele. Pokud Google použije technologii z Kaltixu, půjde cestou jinou.

2. Statistika Vyhledavač nemusí uživatele sledovat pořád. Osobní profil lze odvodit z klíčových slov, která uživatel zadává k vyhledávání v průběhu času, a z výběru stránek, na něž z vyhledavače odchází. Takový postup tvorby osobních profilů má smysl u uživatelů, kteří vyhledavač využívají často, aby mohla vzniknout statisticky významná množina vstupních dat.

Ani tuto cestu Kaltix nenabízí, i když Google chování svých věrných analyzuje.

3. Dotazník Patrně nejblíže k řešení, které vyvíjí Kaltix, má červnový článek Roberta Němce Zapomeňte na pageviews, UIPs a PPC, přichází psychografy (a Velký Bratr). Nejlevnějším způsobem pořízení osobnostního profilu je předložit uživateli dotazník. V něm vyplníte svoje

http://www.digiweb.cz/23-12979110-psychografy-i00000_d-d5

http://searchenginewatch.com/searchday/article.php/3087501

http://searchenginewatch.com/searchday/article.php/3087501

http://www.alexa.com/data/details/?url=digiweb.cz


http://alltheweb.com/search?q=can


koníčky, záliby, věk, pohlaví, vzdělání a obor, rodinný stav, majetkové poměry, bydliště... Na základě toho pak vyhledavač bude vědět, že když hledáte slovo "holič" a jste z Nového Lískovce, nebude vás zajímat lazebník sibiřský.

Ať už si vyhledavače vyberou kteroukoli metodu pro získání osobnostního profilu, je jasné, že budou muset přehodnotit také způsob, jakým prezentují výsledky vyhledávání. Byl to právě Kaltix, kdo zvířil hladinu rybníka, když oznámil, že je schopen tisícinásobně urychlit vrácení výsledků vyhledávání oproti současným metodám.

Jim Pitkow z Moreoveru pro C|Net News v srpnu řekl, že metodu Kaltixu pro výpočet výsledků hledání lze přirovnat k tomu, jako byste nehledali strom nikoli v lese, ale jen ve skupince stromů: "Když víte jaký druh stromu hledat, můžete postupovat rychleji." Pitkow tím dobře vystihl podstatu nové technologie: vyhledavač už nebude vyhledávat výrazy v celém indexu, ale bude se zajímat jen o stránky, jež odpovídají profilu uživatele.

Dříve než Google nasadí personalizaci do vyhledávání, očekává se, že ji začne uplatňovat pro svůj AdSense - reklamní systém. Do budoucna tedy uživateli nebude zobrazována reklama podle klíčových slov obsažených na zobrazené stránce, ale podle profilu čtenáře, případně průnikem. Otázkou je, jak Google získá profil uživatelů.


Jak se hledá na JyxuPřed nedávnem jsme na Lupě zkoumali, jak se hledá na novém Morfeu. Nyní se podíváme na zoubek jeho konkurenci, technologii Jyxo. Zaměříme se na srovnání obou služeb z hlediska jejich schopnosti pracovat s češtinou a taktéž porovnáme rychlost, s níž Jyxo a Morfeo aktualizují své databáze.

Ačkoliv Jyxo je v tuto chvíli integrováno do Atlasu a Quicku, budeme předpokládat, že na těchto portálech najdeme pouhý front-end toho, co běží na www.jyxo.cz. Pro další experimentování jsem tedy zvolil právě tuto stránku (i když je pravděpodobné, že na rozdíl od Atlasu a Quicku tuto "bránu" k technologii Jyxo nevyužívá téměř nikdo).

Při hodnocení Morfea v minulém článku jsme dospěli k závěru, že:

oprava překlepů má drobné mušky synonyma mají drobné mušky ohýbání češtiny (asi nejdůležitější vlastnost) funguje bezproblémově.

V diskusi se přitom objevily názory, že Jyxo by mělo být Morfeu v těchto ukazatelích přibližně rovnocenné, ovšem k jeho výhodám by měla patřit rychlejší aktualizace databáze. Je tomu skutečně tak?

Nabídka automatického hledání synonym a opravy překlepů sice na titulní stránce Jyxa chybí, ale po zadání "locneska" se vás systém sám zeptá, zda nemyslíte Lochnesku, "kbantový" je identifikováno jako "kvantový". "Klávesnicové" záměny sběrné->sb2rn0 či Yambey->Zambezi rozpoznány nejsou. Jyxo se tedy v tomto nijak neliší od Morfea a obě služby dávají identické výstupy. Paralelní testování vedle sebe však přece jen ukázalo, že někdy se v nabídce překlepů odlišují, takže zřejmě nevyužívají identický engine/databázi. Měl jsem


http://news.com.com/2100-1024-5061873.html?tag=nl

pocit, že občas je na tom Morfeo o něco lépe než Jyxo, srovnání je ale jen těžko reprezentativní.

Nabídka synonym na Jyxu schází, zde tedy není co srovnávat. Nedomnívám se však, že by to byla příliš významná funkce.

Pojďme na ohýbání češtiny. Dal jsem Jyxu ty samé dotazy jako v předešlém testu Morfeu. "Dům smutek" nevedlo na první ani na druhé stránce výsledků k Přítelkyni z domu smutku. Tím nechci říct, že systém toto "řešení" nenalezl, spíše asi použil jiná kritéria pro řazení výsledků vyhledávání - možná tolik neupřednostňuje, aby se dvě zadaná slova vyskytovala vedle sebe. Taktéž v dotazu "city slečna sněhem" se Cit slečny Smilly pro sníh objevil pouze jako jeden z výsledků.

Subjektivně se mi tedy zdá, že technologie Morfea při práci s češtinou i při řazení výsledků vyhledávání je o něco propracovanější a uživatelsky příjemnější, ruku do ohně bych ovšem za svůj závěr nebyl ochoten dát.

Faktem také je, že Jyxo.cz není zřejmě určeno ani tak pro hledajícího uživatele, ale spíše jako výkladní skříň pro někoho, kdo by si technologii mohl koupit pro svůj server/portál. Proto při odpovědi vyhledávače vyskakuje na člověka třeba "vysvětlení", jak byla zadaná slova ohýbána. Což vás na jednu stranu coby uživatele nemusí vůbec zajímat, má to však jaksi mezi řádky naznačit (tomu, kdo to zatím nezaregistroval), že Jyxo prostě skloňovat umí.

K výhodám Jyxa před Morfeem měla naopak patřit rychlost aktualizace. Narcistně jsem zkusil, jak je oběma službami indexován Science World. Na zadání purpur lidské oběti našlo Jyxo článek, který byl v tu chvíli starý pouhé tři dny. Morfeo úspěšné nebylo.

Jyxo ovšem dokáže ještě víc - mělo už v databázi i článek Helicobacter rozluštěn, který byl na webu pouhý den. Zde lze jako drobnou perličku uvést, že Jyxo v tomto případě odkazovalo na titulní stránku serveru, nikoliv ještě na vlastní článek.

Morfeo zareagoval až na články Objev etiopského člověka a Opravdu tenká baterie, kterým bylo osm dní. Jyxo je v tomto ohledu prostě lepší - přesně, jak uváděli komentátoři u článku hodnotícího schopnosti Morfea.

Závěr je ovšem udělaný na specializovaném serveru; z hlediska drtivé většiny čtenářů by bylo důležitější zjistit, jak je indexováno iDnes; robot nemusí procházet najednou celý český Internet, ale zřejmě si práci rozdělí na podkategorie, kterým přiřadí každé jinou frekvenci aktualizace. Když už jsem nadhodil iDnes, alespoň "minivýsledek". Článek Zavražděná žena byla v koberci pod schody starý jeden den nenalezla ani jedna ze služeb. Článek Opilý řidič boural i poté, co ho chytili, který byl stár dva dny, nalezlo Jyxo, nikoliv ale Morfeo.

Otázku, jaká z technologií je použitelnější, nechávám na čtenářích. Podle mého názoru jsou srovnatelné. Záleží dost na tom, zda hledáte informace o aktuálním tématu, či záležitosti spíše nadčasové.



http://zpravy.idnes.cz/praha.asp?r=praha&c=A030624_150438_praha_has&l=1&t=A030624_150438_praha_has&r2=praha

http://zpravy.idnes.cz/praha.asp?r=praha&c=A030624_150438_praha_has&l=1&t=A030624_150438_praha_has&r2=praha

http://zpravy.idnes.cz/krimi.asp?r=krimi&c=A030625_182732_krimi_kot

http://zpravy.idnes.cz/krimi.asp?r=krimi&c=A030625_182732_krimi_kot

http://www.scienceworld.cz/sw.nsf/ID/214F55A185977D9FC1256D4400531AC5

http://www.scienceworld.cz/sw.nsf/ID/0408EAB324266D83C1256D48004E5460

http://www.scienceworld.cz/sw.nsf/ID/6220438FD4EBC256C1256D4F003FDB72

Jak se hledá na MorfeuKrátce po uvedení nového fulltextu společnosti NetCentrum se této aplikaci podíváme na zoubek - především s ohledem na nové vlastnosti, tedy ohýbání slov, kontrolu překlepů a synonyma. Spíše než nějaký kompletní soud je následující článek především výsledkem autorova drobného hračičkářství.

Za nejméně podstatnou pokládám kontrolu překlepů. Zde jsem jako výtku zaregistroval, že systém často nerozlišuje mezi anglickou a českou klávesnicí - tj. nenapadne ho, že "sb2rn0" je zřejmě míněno jako "sběrné". Co se týče záměny Z a Y, yambeyi systém nepochopí jako "zambezi". Když vyměníme pouze jedno písmenko (zambeyi), systém stejně nezareaguje. Naproti tomu "kbantový" systém rozpozná jako "kvantový". Problém snad nedělá ani vypadnutí písmene - Locneska je potenciální Lochneska, nukeon je nukleon apod.

Dokonce i když systém najde zadaný řetězec, přesto nabídne i logičtější variantu - tedy kromě výpisu, kde lze najít slovo "tokoko", se nás Morfeo zeptá, zda jsme neměli na mysli "rokoko". Rokoko je ovšem nabídnuto i na "pokoko" (p a r jsou přitom na klávesnici pořádně daleko od sebe). Systém také umí ošetřit negramotnost uživatelů v případě záměny y/i. Na gotyku nabídne gotiku apod. Překlepy se vztahují i na vlastní jména, borged je převeden na spisovatele (Borges) apod.

Shrnuto: Kontrole překlepů by zřejmě neuškodilo, kdyby více zohledňovala umístění písmenek na klávesnici a z toho vyplývající pravděpodobné záměny. Člověku, který místo rokoko napíše pokoko, se tak jako tak zavděčíte jen obtížně. :-) Obecně však kontrolu překlepů nepokládám pro použitelnost systému za příliš významnou.

Pojďme k synonymům. Protein není rozpoznán jako bílkovina, ovšem procházka už může být toulka, potulka, toulání, vycházka, výlet či špacír. Nedá se ale říct, že systému vadí chemické názvy, protože sacharid je cukr nebo uhlohydrát. Triangl ovšem není trojúhelník (a ani naopak - měl jsem podezření, že vazby povedou v některých případech pouze od českých výrazů ke slovům cizím, ale zdá se, že přiřazení jsou symetrická). Hrál jsem si chvíli se zeměpisnými názvy: Cejlon není rozpoznán jako Srí Lanka, London není Londýn, Holandsko není Nizozemí.

U běžných slov se však synonyma zdají být vcelku postačující. Ani tuto funkci ovšem nepokládám za příliš významnou a navíc mi není úplně jasné, kde "synonymnost" končí (krysa není potkan, havran není vrána, uživatel to však často nerozlišuje; mají být takové výrazy provázány?).

Jako nejzajímavější a nejpotřebnější se mi jeví ohýbání slov. I zde jsem se však setkal s názory opačnými (např. s tvrzením, že na skutečně relevantní stránce by se příslušný výraz měl vždy alespoň jednou vyskytnout i v prvním pádě). Narcistně jsem v tomto případě hledal údaje o své maličkosti a skutečně jsem objevil stránku, kde se řetězec jméno + příjmení v prvním pádě vůbec nevyskytoval. "City slečna sněhem" také systém pochopí (-> kniha Cit slečny Smilly pro sníh). "Dům smutek" dá knihu Přítelkyně z domu smutku - podpora skloňování tedy neznamená pouze rozšíření o hvězdičkovou konvenci, ale aplikace se umí vypořádat i se změnou hlásek v kmeni slova. Systém si poradí i s ohýbáním relativně nezvyklých slov - tudíž "Nibelungové" vede na stránky, kde se tito sice nevyskytují, ale zato se zde pojednává o Písni o Nibelunzích.

Jak se zdá, (subjektivně) nejdůležitější inovace na Morfeu vyšla z našeho minitestu také jako nejvydařenější. Nenašel jsem žádný důvod k nespokojenosti.

Poslední cíl, který na tiskové konferenci zveřejnili provozovatelé Centra, je rozpoznávání frází textu jako "uspořádaných celků". Hledaný řetězec "2+kk nové butovice" by měl být systémem "pochopen" jako hledání bytu v této pražské čtvrti, ne rozebrán na jednotlivá slova propojená operátory AND či OR. Trochu to již na Morfeu funguje, v budoucnu to má samozřejmě fungovat ještě mnohem lépe. V tuto chvíli se mi zdá, že systém si poradí třeba s řetězcem "kk" (identifikuje ho jako související s bydlením), "2 + 1 nové butovice" se už ale jako pátrání po bytu nerozpozná. Odpovědi aplikace na mě taktéž již působily dojmem, že systém do určité míry umí odfiltrovat balast v dotazech, tj. ve frázi "hledám byt nové butovice" bude ignorováno "hledám".

Na okraj: Osobně jsem docela zvědavý, jak se Morfeo bude dále rozvíjet. Kdybychom chtěli problém postavit teoreticky, řešíme (mj.), jakým způsobem vlastně z určité syntaxe vystává sémantika (význam slov). Nedomnívám se, že by problému bylo realizovatelné pouze analýzou gramatické struktury dotazu (co je přísudek apod.), systém se skutečně musí snažit "pochopit", o čem uživatelův dotaz vlastně je.


Co vlastně chcete po vyhledávači?Informace o snaze Googlu nějak inteligentněji pracovat s indexovanými dokumenty, které se objevily po nedávném nákupu společnosti Applied Semantics, nutně vyvolává obecnější úvahy o tom, co vlastně jako uživatelé od vyhledávače očekáváme. Nakolik se má snažit "být inteligentní"? Domníváme se, že dost.

V mnoha variacích často slýcháme následující větu: "Problémem nalezení určité informace na Internetu není dnes ani tak její principiální nedostupnost, ale spíše fakt, že mezi uživatelem a hledaným textem leží obrovské množství dalších textů." Otázkou zůstává, na jaké místo řetězce uživatel-vyhledávač-finální text zabudovat potřebné inteligentní zpracování. Pokusím se ukázat, proč by "aplikační logika" měla sídlit v prostředním článku.

Uživatel Proč nemůže být inteligence realizována na straně uživatele? Tady se nabízí mnoho více či méně ironických odpovědí, které se vesměs vyznačují jistou prvoplánovitostí. :-) Spokojme se však s tím, že:

provozovatel vyhledávače se musí snažit alespoň nějak uspokojit i ty uživatele, kteří např. nechápou různou specifičnost jednotlivých slov

vymýšlení co nejspecifičtějšího dotazu je každopádně náročné na čas pokud dokážete popsat, jak vlastně k takovému "chytrému" dotazu dospějete, není

důvod, proč to nezkusit naučit i počítač

Webová stránka Druhá možnost: Proč by "inteligence" nemohla být nějak implementována v konečném textu? Už více než pět let přece vycházejí články na téma XML. Původně se tomu sice neříkalo "sémantický web", nicméně toto slovo cíle nového jazyka poměrně přesně vystihuje.


Zatímco tagy HTML mají charakter spíše prezenční grafiky (určují barvu, styl písma, velikost atd.), jazyk XML měl naopak upřesňovat význam informace. Osobně jsem viděl asi jako nejelegantnější ukázku možností XML (nebo nějaké jeho příbuzné varianty) matematický výpočet. Vezmete kód z webové stránky a vložíte jej do specializované aplikace. Ta s ním dokáže dále pracovat, tedy oznámí vám třeba výsledek příkladu zveřejněného na webu. Nemusí jít o 2 + 2 = 4, ale i o složitější operace typu testů prvočíselnosti.

Sémantický web měl samozřejmě fungovat nejen pro matematické vzorce, ale i pro texty v přirozeném jazyce - jednotlivá slova by v něm byla opatřena různými nálepkami. Jménu autora knihy by třeba předcházel tag , názvu tag apod. Takovou "inteligentní" aplikaci můžete jistě využít ve vlastním online knihkupectví. Aby ale vyhledávače mohly podporovat sémantický web, musela by v něm nejprve být vytvořena nezanedbatelná množina stránek. Na Internetu se však sémantický přístup dosud neujal (nejde mi na tomto místě o to, zda se v hlavičce stránky objeví něco "XML version...").

Samotné XML (alespoň jak jeho návrhu rozumím) přitom stejně specifikuje pouze některé zvlášť význačné části dokumentu. Kdybychom měli být důslední, pak by tvůrce webu měl vytvářet legendu, tedy nějaký specifický tag, de facto ke každému slovu (a tady se nabízí i otázka, zda by postupná hierarchie meta a meta-meta úrovní měla mít vůbec nějaký konec). Nikdo asi nebude produkovat dokumenty ve stylu apple.

Sémantika Lingvisté se nedokáží přesně dohodnout, jakým způsobem ze struktury (syntaxe) vyvstává její smysl (sémantika). Možná je dobře, že XML zatím nepřineslo (alespoň na Internetu) takové výsledky, jaké se od něj původně očekávaly. Díky tomu totiž vyhledávače stojí před výzvou. Namísto práce s několika dalšími tagy musí najít lepší algoritmy, navíc algoritmy speciálních vlastností.

Pokud je mi známo, když zadáte např. do Googlu výraz Borges (tento lingvistický sloupek je volně inspirován povídkou Babylónská knihovna právě tohoto pána), systém udělá zhruba následující: Vezme nejenom stránky, kde se toto slovo vyskytuje s největší frekvencí, ale také stránky, na které lidé, kteří před vámi hledali Borgese, z Googlu skutečně klikli. Tím se vlastně mění relativní váhy jednotlivých "spojení" (mezi slovem a určitým dokumentem). Dala by se vidět jistá podobnost s neuronovými sítěmi. Obecně máme před sebou systém, který se alespoň nějak učí. Zavedení evolučních principů by mohlo být dalším krokem, na jehož závěru by mohly stát systémy nejenom mechanicky přehazující tagy, ale také jazyku v nějakém slova smyslu rozumějící (ať už si pod tímto slovem představíme cokoliv).

Zamyslete se nad následujícím vývojem. Ony "vážené vazby" se nemusejí vytvářet jen mezi dotazem a určitým dokumentem, ale také mezi dotazem a dalšími souvisejícími výrazy (byť se na ně tazatel přímo neptá). Uživatelé, kteří hledají slovo jablko, klikají na dokumenty, kde je (např.) také "strom", "hruška", "obchod", "slupka", dále možné atributy jablka ("červené", "plesnivé", "drahé", "z dovozu") a operace, které je s jablkem možné provádět ("krájet", "sníst", "koupit", "shnít").

Systém přehazuje hromady dat, kolem jednotlivých slov vznikají speciální sémantická pole. Váhy propojení se neustále mění. Tímto způsobem by se postupně měla vytvářet dosti věrná reprezentace reálného světa. Nakonec i pro nás samé existuje svět do značné míry jako hromada textů, které se odkazují k jiným textům.

Z hlediska teorie nejsou výše uvedené věci rozhodně žádnými novinkami a asi znějí poněkud banálně. Google ve spojení s Applied Semantics představuje ale skvělou (především ve smyslu obrovskou) testovací laboratoř. Nejde jen o velikosti databází a hromady dokumentů v nich, ale hlavně o zástupy uživatelů, kteří systém neustále trénují - alespoň pokud mu jeho tvůrci dají architekturu, ve které toho učení půjde dobře realizovat.

Přiřazení určité reklamy určitému dotazu je pro provozovatele z ekonomického hlediska jistě klíčové, ale skutečně revoluční výsledky by se mohly objevit někde jinde - třeba na poli umělé inteligence.

Poznámky:

Nakonec si ale nejsem jistý, zda problémy spojené s nalezením určité informace nejsou stále ještě často způsobeny i tím, že na Internetu potřebný dokument prostě dostupný vůbec není. Na vině by kromě robotů či algoritmů vyhledávače mohl být i sám způsob, kterým webové stránky vznikají. Řekněme, že jde třeba o prezentace firem a institucí či stránky osobní, tj. převážně o dokumenty dosti speciálního typu. Proto lze rozhodně uvítat projekty spojené s digitalizací celých knihoven či třeba webové encyklopedie.

Ona borgesovská inspirace je mj. následující. Jakýkoliv dostatečně úplný soubor textů by v sobě měl tak či onak obsahovat i pravidla, podle kterých je možné se mu naučit porozumět. V Babylonské knihovně se tím ovšem myslí spíše gramatika než sémantika.


Jak české weby řeší pole pro vyhledáváníVyhledávání v rámci jednoho website mnohdy zachraňuje špatně navrženou navigaci, jindy je jedinou schůdnou cestou k požadované informaci v rozsáhlé databázi. V dnešním dílu seriálu o použitelnosti českých webů se zaměříme právě na podrobnější rozbor vyhledávacího formuláře umístěného přímo na stránce.

Vyhledáváním přímo na stránce disponuje 55 ze sta sledovaných webů. Pole pro vyhledávání chybí na všech vysokoškolských webech, na mnoha firemních prezentacích a u některých weblogů. Překvapením je absence vyhledávání na stránkách online magazínů Svět namodro, Dáma, Equichannel, Žena In a Novinky, které disponují kvanty obsahu, pro nějž by se vyhledávání hodilo. Na Světě namodro sice pole pro vyhledávání najdete, ovšem výsledky vrací Quick (Jyxo) pro celý český web. U Antikoncepce, České spořitelny a Evropské unie také na webu vyhledávání mají, ovšem nikoli na každé stránce.

Když už na stránce vyhledávání je, musí je uživatel ještě být schopen najít. Podstatný je vzhled a umístění. Níže uvedená tabulka představuje obrazovku počítače rozdělenou na čtyři řady a tři sloupce, číslo v každé buňce pak představuje počet sledovaných webů, které v dané pozici nabízejí pole pro vyhledávání. Na první pohled je patrné, že vyhledávání lze očekávat nejčastěji v horní polovině stránky, a to buď vlevo, nebo vpravo. Na ostatních pozicích je pole pro vyhledávání nezvyklé.


Četnost umístění vyhledávacího pole na stránce

13 3 13

10 2 2

4 0 2

3 1 1

Když podobný experiment (ovšem jen s polovičním počtem stránek) loni zveřejnil Jakob Nielsen v knize Homepage Usability, dospěl k téměř identickému zjištění. Nielsen záhy z výsledků odvodil doporučení pro návrháře vizuálního rozhraní, aby právě k horní hraně okna prohlížeče vyhledávací formulář umisťovali i na nových webech, protože uživatelé jsou zvyklí jej zde hledat. Jiní usability experti pracují opačným způsobem, kdy uživatelskému panelu rozdají čtvercovou síť, do níž pak uživatelé mají zakreslit místo, kde vyhledávání budou na stránce očekávat. I v těchto případech byly v zahraničí získány obdobné výsledky.

Vyhledávání vlevo nahoře najdete na stránkách portálů, u specializovaných vyhledavačů (žádný ve vzorku nemáme) se posunuje blíže ke středu obrazovky. V levém sloupci bývá umístěno vyhledávání, které je doplněno o volitelné parametry uváděné v rozbalovací nabídce. Doprava nahoru se pak umisťuje většinou prosté fulltextové vyhledávání na běžných stránkách. Právě do pravého horního rohu umístili při posledním redesignu vyhledávání tvůrci Rootu, Živě nebo iDnesu. U webů staršího data najdete formulář obvykle spíš v levém sloupci.

Vedle umístění formuláře je důležitý i způsob jeho zobrazení. Uživatelé často omylem zadají hledanou frázi do jiného formuláře, zvláště, pokud se vyskytne na místě, kde na jiných webech bývá vyhledávání. Vyhledávací formulář by proto měl být snadno identifikovatelný. Takový se nepodařilo stvořit na titulní stránce Blesku Petru Staníčkovi - formulářové pole bez orámování, na šedém pozadí, s šedým návěstím, na neobvyklém místě. Uživatelé nejlépe rozeznávají formulářová pole, jejichž vzhled není nijak upravován.

Formulářová pole pro vyhledávání obvykle bývají buď uvozena návěstím "Vyhledávání" (Techno.cz), kde potom chybí tlačítko k odeslání formuláře, nebo postrádají návěstí, ale jsou doprovozena tlačítkem "Hledej" (T-Mobile). Výjimkou ovšem není přístup "kšandy a pásek", kdy formulář obklopuje jak návěstí, tak i tlačítko k odeslání (Kočky online, Eurotel). V tomhle případě tlačítko obsahuje většinou nápis "OK" nebo "Jdi" (u Eurotelu "Go"). Návěstí před formulářem se velmi liší, vedle slova "Vyhledávání" (případně "kde" nebo "čeho") se setkáme i se slovem "Hledej"; na Živě celkem netradičně použili návěstí "Chci najít".

U textových formulářových polí je třeba z hlediska použitelnosti (usability) sledovat především, zda dobře plní své poslání - zda se do nich dá dobře zapisovat. U vyhledávání je patrně nejdůležitějším parametrem počet viditelných znaků. Pokud bychom vycházeli z nejčastější délky vyhledávacího pole (viz graf výše), pak bychom museli dospět k názoru, že nejvhodnější délkou je 10 až 15 viditelných znaků. České slovo má v průměru 5,7 znaku, což by znamenalo, že bychom mohli snadno a přehledně do vyhledávacího pole zapsat maximálně dvouslovný výraz. Zvláště na portálech si můžete všimnout extrémní délky formulářového pole: Centrum a Seznam (31 znaků) nabízejí lepší komfort nežli Atlas nebo Alenka (25 znaků). Naproti tomu vyhledávání na Alíkovi, PIS nebo Games Tiscali přímo odrazuje krátkými poli. Pro představu: Jyxo nabízí místo 66 viditelných znaků.

V našem výběru nejdelší vyhledávání nabízí TopList (35 znaků) a obecně širší vyhledávací pole nabízejí novější weby - s výjimkou iDnes, které se svými 12 znaky není příliš uživatelsky přítulné (user friendly). TopList společně s FreeMusic se odhodlaly k zajímavému (ale nikoli následování hodnému) kroku - omezují délku dotazu. Na TopListu se nejdelší dotaz sestává z 35 znaků, na FreeMusic vám nedovolí napsat dokonce ani více než 15 znaků. U jiných webů jsem omezení maximální délky dotazu nepozoroval.

Co z průzkumu na 55 českých webech vyplývá? Vyhledávací formulář patří k hornímu okraji stránky, vlevo pod logotyp nebo doprava. Délka textového pole by měla umožnit snadný pohodlný zápis i delší fráze - 25 až 35 znaků by mělo postačit. Pokud nemáte závažný důvod, maximální délku fráze příliš neomezujte. Formulářovému poli je vhodné ponechat původní vzhled. Pokud je opatříme tlačítkem pro odeslání dotazu, není třeba uvádět je návěstím a naopak. Chceme-li použít návěstí i tlačítko, pak tlačítko nemusí obsahovat slovo "Hledej" nebo podobná.


Googlegrácky, aneb vyhledávání převážně nevážněInternetový vyhledavač Google nemusí sloužit jen k vlastnímu nalezení určitých stránek. Dají se s ním provádět nejrůznější výzkumy či experimenty a občas poslouží jen k bohapusté zábavě. Především o ní je tento článek, ačkoli vás možná inspiruje i k vážnějšímu využití Googlu způsobem, jaký vás zatím nenapadl.


Googlewhacking S termínem googlewhacking (v češtině asi nejlépe zní "odbourávání Googlu") přišel Gary Stock v lednu 2002. Samotná myšlenka - najít v Googlu dotaz, který vrací jen jedinou odpověď - však hravé jedince provokovala určitě již dlouho před tím. Stock dal ovšem tomuto sportu nejen jméno, ale i přesná pravidla:

1. Cílem hry je nalézt dotaz skládající se ze dvou slov, který v Googlu vrací jako výsledek přesně jeden odkaz.

2. Dotaz nesmí být uzavřen v uvozovkách a slova tedy nemusí být na cílové stránce těsně za sebou.

3. Obě slova musí existovat v referenčním slovníku, který Google používá pro kontrolu a výklad hledaných slov (dictionary.com).

4. Výňatek stránky, který Google zobrazí pod jejím titulkem, nesmí obsahovat prostý seznam slov.

Větší názornosti by určitě pomohlo pár příkladů, ale tím bych autorům jejich whacky zkazil (poté, co Google tento článek zaindexuje). Podívejte se proto raději na tento seznam, případně zkuste frázi prezidentova klaustrofobie, kterou jsem nalezl pro účely tohoto článku. Krátce po jeho vydání však přestane fungovat.

O popularitě googlewhackingu svědčí nejen vlastní doména googlewhack.com, ale i řada článků v seriózních médiích (např. CNET News.com). Existuje dokonce i automat, který líným whackerům usnadní práci.

Googlismus Na hranici legrace a seriózního výzkumu se nachází Googlismus. Jedná se o nástroj, který pro zadané slovo vyhledá buď kdo to je, co to je, kde to je nebo kdy to je. Výsledky jsou samozřejmě často komické, jako např. ty, které jsem obdržel na dotaz, co je Lupa (poznámka: tento a další odkazy nemusí vždy fungovat, neboť je využito Google API limitované na 1000 dotazů za den):

lupa is a place for respite (lupa je místo oddechu) lupa is in bed right now (lupa je nyní v posteli) lupa is not a driving instructor (lupa není učitelem v autoškole) lupa is available for private parties of 7 to 100 persons (lupa je k dispozici pro

soukromé večírky od 7 do 100 osob)

Některé odpovědi však překvapí svou vážností. Např. vaclav havel is one of the great humanitarian intellectuals of the twentieth century (vaclav havel je jedním z největších humanistických intelektuálů dvacátého století), zatímco vaclav klaus is arrogant (překlad snad netřeba) a též at the heart of many conspiracies (srdcem mnoha konspirací).

Googlefight Mezi hry spíše triviální patří Googlefight. V principu nejde o nic jiného než o porovnání počtu výsledků dvou dotazů. Pokud by se v této soutěži utkal náš minulý a nový prezident, rozdíl by byl kupodivu dost těsný:

http://www.google-fight.com/

http://www.googlism.com/index.htm?ism=v%E1clav+klaus&type=1

http://www.googlism.com/index.htm?ism=v%E1clav+havel&type=1

http://www.googlism.com/index.htm?ism=lupa&type=2

http://www.googlism.com/

http://www.amberdigital.com/gaggle.html

http://www.amberdigital.com/gaggle.html

http://news.com.com/2100-1023-825602.html

http://www.googlewhack.com/

http://www.google.com/search?lr=&q=prezidentova+klaustrofobie

http://www.googlewhack.com/tally.pl

http://www.dictionary.com/

http://www.googlewhack.com/rules.htm

václav havel: 49 300václav klaus: 41 200

Googlefight ovšem může sloužit též jako velmi spolehlivý jazykový poradce. Píšete nějaký cizojazyčný text a nejste si jisti, která ze dvou variant je správnější? Zkuste obě v Googlu a porovnejte počet výsledků. Funguje to velmi dobře nejen na jednotlivá slova, ale i na víceslovné fráze (ach, ty anglické idiomy) a často dokonce celé věty.

Googleshare O dost pokročilejší verzí Googlefightu je Googleshare, který vynalezl Steven Johnson a popisuje ho takto:

"V podstatě jediné, co uděláte, je, že vyhledáte v Googlu určité slovo a poznamenáte si počet výsledků. Pak vyhledáte něčí jméno ve výsledcích prvního dotazu. Vydělte druhé číslo prvním a získáte procentuální podíl toho, jak moc ona osoba 'vlastní' dané slovo."

Opět můžeme vyzkoušet naše dva poslední prezidenty a jejich význam pro Českou republiku. Nejprve vyhledáme sousloví Česká republika a nalezneme 250 000 výsledků. Nyní v rámci těchto výsledků (příkaz Search within results) položíme dotaz Václav Havel a dostaneme číslo 11 100, což dá Googleshare 4,44 procenta. Stejným postupem zjistíme, že Googleshare Václava Klause činí 3,83 procenta.

Trocha poezie Nechme politiku politikou a zkusme trochu poezie. K vytváření automatických poetických textů na základě několika zadaných slov slouží nástroj Google Poetry. Pokud preferujete méně automatiky a větší osobní kontrolu, můžete zkusit recept Davida Pratera: zadejte do Googlu nějaké slovo a báseň libovolně sestavte z úryvků textu na první stránce výsledků. Zde je příklad, že taková search poem nemusí být špatná.

Poetický nádech má i Google Grokking. Konstruují se při něm dotazy, které dávají nečekanou, komickou, nebo jinak zajímavou množinu výsledků.

Google Groups Art Na závěr se dostáváme k výtvarnému umění. Ano, ač se tomu těžko věří, Googlem je možné malovat i obrázky. Podívejte se na tohoto Barta Simpsona. Nevěříte, že je namalován Googlem? Ale ano, je. Princip je překvapivě jednoduchý. Do libovolné diskusní skupiny Google Groups (webové rozhraní pro Usenet) se nejprve pošle příspěvek skládající se z několika slov (či jen skupin písmen; ve výše uvedeném příkladu aa ae ao ea ee eo). Poté už stačí Googlu položit dotaz obsahující stejná slova a obdivovat, jak je sám krásně vybarví.

O tom, že se v Google Groups Artu najdou skuteční mistři, svědčí i tento obrázek Abrahama Lincolna.

Google sám je vtipálek S Googlem ovšem nežertují jen jeho uživatelé. On sám je také pěkný taškář. Jestlipak jste věděli, že k vyhledávání můžete použít i klingonštinu, hackerštinu či toto šišlání? To jsou však všechno jen klientská rozhraní. Co bychom ale nalezli, kdybychom nahlédli pod kapotu tohoto nejmocnějšího vyhledávacího stroje na světě? Holuby!



http://www.google.com/technology/pigeonrank.html

http://www.google.com/intl/xx-elmer/

http://www.google.com/intl/xx-hacker/

http://www.google.com/intl/xx-klingon/

http://groups.google.com/groups?q=aa+ae+ao+ea+ee+eo+oa+oe+lincoln&hl=en&lr=&ie=UTF-8&scoring=d&[email protected]&rnum=1

http://groups.google.com/groups?q=aa+ae+ao+ea+ee+eo+oa+oe+lincoln&hl=en&lr=&ie=UTF-8&scoring=d&[email protected]&rnum=1

http://groups.google.com/

http://groups.google.com/groups?q=aa+ae+ao+ea+ee+eo+bart&hl=en&lr=&ie=UTF-8&[email protected]&rnum=1

http://sprott.physics.wisc.edu/pickover/pc/burnedbrain.html

http://finishhim.blogspot.com/2002_06_02_finishhim_archive.html

http://www.buzztoolbox.com/google/goopoetry.shtml

http://www.google.com/search?q=%C4%8Cesk%C3%A1+republika&btnG=Google+Search&hl=en&lr=&ie=UTF-8&oe=UTF-8

http://www.stevenberlinjohnson.com/movabletype/archives/000009.html

Řekni mi Google, kdo je na světě nejkrásnější?Google před nedávnem spustil službu Answers, v rámci níž může kdokoliv položit svůj dotaz, na který odpoví "hledač" z masa a kostí. Hlavním důvodem je zřejmě smutná skutečnost, že si lidé s automatizovanými vyhledávači nerozumí a neumějí pokládat dotazy tak, aby dostali odpovídající výsledky. Ovšem pozor: s domácími úkoly vám u Google nepomohou.

Fulltextový vyhledávač Google je znám svou odlišností od ostatních světových vyhledávačů. Kromě toho, že disponuje pravděpodobně nejvyspělejší technologií, soustředí se na rozdíl od konkurence pouze na vyhledávání. V době dot-com boomu nepropadl zlaté horečecce a nezačal poskytovat klasické portálové služby (free-mail, free-hosting apod.), ani nezačal prodávat po Internetu knihy, parfémy nebo žrádlo pro psy. Gůgláci ustáli období přízně investorů s chladnou hlavou, což se jim nakonec vyplatilo. Google je jedna z mála ryze internetových firem, které jsou v černých číslech.

Přestože Google indexuje na Internetu téměř vše, na co vede odkaz, jen relativně malá skupina uživatelů dokáže efektivně využívat všech možností, které Google nabízí. V podstatě jde o to, že většina laických uživatelů obvykle nepoužívá logické operátory (a i když, tak jen "and"), nespecifikuje vyhledávání jen v jedné doméně a podobně. Proto bývají výsledky jejich dotazů často neuspokojující.

Tento problém se snaží řešit služba Google Answers, která byla spuštěna na jaře letošního roku. V podstatě se jedná o tým 500 vybraných a otestovaných hledačů, kteří se snaží nalézt odpovědi na libovolné dotazy uživatelů. Ti se ptají skutečně na cokoliv: od exaktních otázek "proč je nebe modré" až po vysoce filozofické otázky typu "co je to štěstí", na které jsou kupodivu poskytovány smysluplné odpovědi. Existuje i několik témat, na které Google zkrátka neodpoví. Jedná se o otázky na konkrétní osoby, otázky dopomáhající k nelegální činnosti a překvapivě i otázky týkající se domácích úkolů a testů (školních)! Ach, ta americká poctivost ...

Hledači mohou využívat všechny jim dostupné zdroje, tedy nejen Google, ale i další on-line služby, klasické slovníky, encyklopedie atd. Podstatné je, že za každý zodpovězený dotaz musí uživatelé zaplatit. Sympatické je, že si sami určují, kolik jsou ochotni za požadovanou informaci dát. Minimum jsou dva a půl dolaru, maximum dvěstě dolarů.

Každá odpověď, kterou hledač najde, je zběžně zkontrolována editorem, což je na rozdíl od běžných hledačů interní zaměstnanec Googlu (přesný počet editorů není znám, nicméně bude se pravděpodobně jednat o jednoho až tři lidi). V případě, že není uživatel spokojen, může požádat hledače o upřesnění eventuelně vysvětlení informace. Pokud není spokojen ani poté, může žádat své peníze zpět.

Google funguje jako zprostředkovatel a zároveň zúčtovací centrum, uživatel platí kreditní kartou. Z vybrané částky si Google ponechá čtvrtinu a zbytek připadne hledačovi, který pracuje pro Google externě.

Se službou jsou provozovatelé evidetně spokojeni. "Google Answers předčily naše očekávání. Dostali jsme překvapující množství žádostí od lidí, kteří se chtěli stát hledači. Každý den je zadáno kolem 150 dotazů na různá témata. Rádi bychom pokračovali v rozvoji služby, aby byla pro uživatele co nejvíce přínosná," říká Eileen Rodriguez z tiskového oddělení Google.

https://answers.google.com/answers/main

Naskýtá se otázka, proč se vůbec Google do služby Answers pustil. Důvodem by mohlo být hledání dalšího možného obchodního modelu pro vyhledávač. Podle Googlu je ale vše jinak. "U služby Google Answers je prioritním cílem zlepšit možnosti vyhledávání pro naše uživatele, nikoliv zvyšovat příjmy. Google Answers jsou v současné době experimentálním projektem, prozatím hodnotíme zpětnou vazbu od uživatelů, teprve potom rozhodneme o další koncepci služby," dodává Eileen Rodriguez.

O tom, že v současné době skutečně nejde o zisk, svědčí i příjmy, které služba může přinášet. Pokud je denně zodpovězeno a zaplaceno 75 dotazů (polovina dotazů položených za jeden den) za průměrný honorář 10 dolarů, činí to ročně cca 70 tisíc dolarů. To jsou roční náklady na dva až tři editory, které musí Google zaměstnávat. Zisk se tedy zjevně pohybuje od nuly k nule. Nicméně i tak se jedná o zajímavou a hlavně inovativní službu.

Perlička na závěr: podobná služba, byť zaměřená pouze na jedno uzké téma - technologii GPRS, existuje i v Česku. Navíc byla spuštěna o několik měsíců dříve než Google Answers. Jedná se o GPRSFORUM, což je experiment společnosti Český Mobil, do kterého bylo vybráno určité množství vysoce erudovaných jedinců (tzv. technoidů), kteří zajišťovali (mimo jiné) technickou podporu pro zákazníky Oskara. GPRSForum funguje na stejném principu jako Google Answers, ovšem uživatelé za odpovědi neplatí. Technoidi jsou místo toho motivování v rámci různých akcí, které pro ně Oskar pořádá.


Jak vypadá Google uvnitř?V dnešním díle navážeme na slib z dílů předchozích a představíme profesionální stroj tak, jak vypadá uvnitř a jak je vlastně naprogramován. Z důvodů momentální atraktivity a popularity to nebude nikdo jiný než Google.

Čísla, která budeme uvádět, vycházejí ze starších údajů a původní dokumentace, které je možné ověřit z veřejných zdrojů, což zajisté nedůvěřiví čtenáři ocení. Zároveň neuvádíme kompletní seznam literatury, vyjma nosné dokumentace. Tu jsme využili pouze k opravě a kontrole některých hodnot. Její kompletní seznam získáte z Googlu, jak jinak, dotazem "Google architecture".

Historie

Autory Googlu jsou pánové Sergey Brin a Lawrence Page. Celý systém je postaven na centralizované architektuře (viz díl o architekturách fulltextových strojů) a všechny indexované HTML stránky jsou uloženy - jak jinak než v komprimované podobě - v centrálním úložisti. Primárním cílem, který měl být splněn, je zajištění vysoké přesnosti odpovědí.

Google byl (v roce 2000) tvořen Linuxovým clusterem s 80 GB diskového pole a propustností I/O sběrnic 400 Gb/s. Kompresovaná velikost HTML dat byla 53,5 GB, index dokumentů měl 9,7 GB, lexikon obsahoval 14 milionů slov, velikost báze odkazů 6,6 GB (24 milionů stránek a 259 milionů odkazů) a velikost seznamu odkazů 3,9 GB (v seznamu je pouze dvojice ID dokumentů). Jeho běh zajišťuje několik modulů, které vzájemně kooperují.




http://www.gprsforum.cz/

Pozn.: Index dokumentů, který zmíníme jako vstup hned u prvního modulu, musíme popsat předem, ostatní datové struktury vysvětlíme za pochodu. Jedná se o index nad položkami o dokumentech. Každá položka obsahuje kromě různých údajů o dokumentu i jeho kontrolní součet a stav. Když byl odpovídající dokument stažen, přibývají takové položky jako titulek apod. V opačném případě se vše jeví jako obyčejný seznam URL.

Architektura modulů

URL server: tento modul nedělá nic jiného, než že si vezme startovací URL, a zároveň čte další URL tak, jak jsou (nebo se objeví) v indexu dokumentů. Každá URL adresa je pak odbavena crawlerovi, který má za úkol dokument opatřit. O tom, jakým způsobem Google prochází prostor URL adres (do hloubky, do šířky), si povíme později.

Crawler modul: crawler stáhne požadovaný dokument na patřičném URL a pošle jej na úložiště. Google má kapacitu stahovaní cca 100 stránek/sekundu (méně než 1 MB/s) při 4 crawlerech a 300 aktivních koneksí na každém z nich (údaj se opět týká roku 2000). Crawlování pochopitelně probíhá distribuovanou verzí crawlovacího algoritmu.

Úložiště: na úložišti se koncentrují všechny stažené dokumenty, jsou kompresovány zlib-em (RFC1950) a získávají své vlastní unikátní ID.

Indexovač: tento modul prochází úložiště, parsuje dokumenty a vytváří pro každé slovo hit. Ten tvoří jednak samotné slovo, ale i jeho pozice, hodnota zvýraznění vůči okolnímu textu atp. Pro fungování stroje se hit rozlišuje na fiktivní a prostý. První vzniká z částí URL, titulků, textů odkazů a meta tagů. Do druhého případu spadají ostatní situace. Hit je pak uložen v barelu - částečně uspořádaném indexu, jehož strukturu najdete v originálním dokumentu (třetí obrázek...). Kromě toho indexovač vytváří seznam odkazů ve tvaru (z URL, na URL, text odkazu) a generuje lexikon.

URL Resolver: za úkol má čtení seznamu odkazů, konvertuje relativní URL na absolutní a ta zase na ID těchto dokumentů. V tomto modulu také vzniká vstup pro výpočet PageRank, protože dochází i ke generování databáze odkazů, ta neobsahuje zdrojová URL jako seznam odkazů, ale pouze jejich odpovídající ID.

Třídič: aby bylo možné vygenerovat jeden invertovaný seznam, setřídí tento modul všechny barely, které vycházejí z indexovače. Na výstupu indexovače je index seřazen podle ID dokumentu, pro práci jej ale potřebujeme řadit podle ID termů. Výstupní indexy-barely jsou de facto dva. První, označovaný jako malý, indexuje titulky a texty odkazů. Druhý, velký, kompletní těla dokumentů.

Vyhodnocování dotazu

Technika vyhodnocování doznává určitých změn v případě jednoslovného a víceslovného. V zásadě však vlastní algoritmus můžeme popsat takto:

1. Rozlož dotaz 2. Pro každé slovo zjisti jeho odpovídající ID v systému 3. Pro každé slovo zjisti začátek seznamu dokumentů v malém barelu 4. Procházej ten seznam dokud nenajdeš dokument, který plně odpovídá celému dotazu 5. Spočítej jeho relevanci


6. Když jsme v malém barelu došli na konec některého ze seznamů (dokumentů), skočíme na začátek tohoto seznamu do velkého barelu s každým termem a jdeme na 4

7. Když nejsme na konci žádného seznamu, jdeme na 4 8. Seřaď ohodnocené dokumenty


Proč nám fulltextový stroj nerozumí?Patříte mezi ty uživatele, kteří nevěřícně kroutí hlavou nad nesmyslnou odpovědí fulltextového stroje? Co může být příčinou toho, že dojde k takovým přehmatům? Lze najít jehlu v kupce sena? Jak funguje Google PageRank? Jak ho lze ošálit? To jsou otázky, které zodpovídá nová serie článků o vyhledávacích strojích nejen české domény.

Patříte mezi ty uživatele, kteří nevěřícně kroutí hlavou nad nesmyslnou odpovědí fulltextového stroje? Co může být příčinou toho, že i přes kvalitní implementaci dojde k takovým přehmatům? Hlavní nebezpečí je ukryto ve zpracování textu jako takového. Pomineme-li omezenou schopnost stroje pochopit smysl slov dokumentu, stále nám zůstávají určité technické bariéry, které nelze naprosto dokonale vyřešit. Například zhruba 10-20 procent shod zůstává nenalezeno, pokud stroj není schopen ohlídat překlepy a různé tvary slov. To vede ke ztrátě až 50 procent relevantních odpovědí, když se zaměříme jen na cizí slova nebo slova s pravopisně obtížným hláskováním.

Je však vše problém techniky, nebo jsou problémy i v naší psychice a nechuti trpělivě hledat? Vždyť uživatelé z 25 procent používají pouze jednoslovný dotaz, z 80 procent své dotazy vůbec nemodifikují a celých 85 procent se dívá pouze na první obrazovku výsledku (pozn.: 64 procent dotazů je unikátních). Další hodnoty přináší následující tabulka:

Hodnota Průměrná hodnotaPočet slov dotazu 2,35Počet operátorů dotazu 0,41Počet dotazů/uživatele 2,02Počet shlédnutých stran 1,39

Co z uvedených hodnot vyplývá, je nasnadě - uživatelé pokládájí velice krátké dotazy většinou z 1-3 slov, nemají snahu dotaz ladit (viz. počet operátorů a dotazů na uživatele) a nemají trpělivost výsledek podrobněji prohlížet (viz. počet shlédnutých stran výsledku).

Práce fulltextového stroje je pak těmito faktory pochopitelně ovlivněna. Základní problém je vlastně získání dostatečného informačního potenciálu z krátkých dotazů. S tím přímo souvisí i jeden významný negativní aspekt - polysemie (tj. mnohovýznamnost slov). Ten ovlivňuje především přesnost (podíl skutečně relevantních odpovědí v množině výsledku), ale i na tuto nemoc se našlo řešení.

S klasickým vektorovým modelem (podrobněji zmíním v některé z dalších kapitol) se Yuwono a Lee - při testech nad 2.400 stránkami a 56 dotazy - dostali až k 75procentní průměrné přesnosti. To ale pro rozsáhlé báze textů, jakými je například Internet, nestačí. Byly proto navrženy další metody, jak k nedostatečnému informačnímu potenciálu dotazu dodat "přidanou hodnotu". Kleinberg představil svoji metodu HITS, kterou založil na systému autorit a webových rozcestníků. I o této metodě budu hovořit v některém z pokračování. Zde


se zaměřím na populárnější metodu PageRank, která nevyžaduje žádné zásadní teoretické znalosti o fulltextových modelech a přitom velice úspešně pomáhá zkvalitnit výsledkovou listinu odpovědi.

Google PageRank Poslední dobou internetem hýbe PageRank. Jedná se o metodu vyhledávače Google. PageRank v podstatě určuje hodnoty na základě simulace náhodného pohybu uživatele po odkazech webového hypertextu. Myšlenka je ta, že uživatel si buď náhodně zvolí stránku s pravděpodobností q, nebo s pravděpodobností (1-q) následuje odkaz, který je právě na jím otevřené stránce. Jako důležitý předpoklad slouží skutečnost, že takový uživatel se nikdy nevrací zpět po již následovaném odkazu. Tento proces může být simulován pomocí Markovova řetězu, a tak se můžeme dopočítat ustálených hodnot pro jednotlivé stránky. Tato hodnota pak přispívá do ohodnocovací formule, kterou Google používá. V zásadě ji lze ale aplikovat do libovolného modelu již existujících fulltextů.

Budeme-li předpokládat, že out(a) je počet odchozích odkazů ze stránky a, a že na a odkazují stránky p1 až pn, pak je PageRank PR(a) definován jako:

PR(a) = q + (1-q)*sum(i=1..n; PR(pi)/out(pi))

Hodnota q bývá typicky nastavena na "pocit" toho, jak moc věříme stránce a ne odkazům ostatních, resp. nakolik uživatel radši sáhne po nové stránce, než aby následoval odkazy. Tak by totiž činil pouze pokud by aktuální stránka byla obsahově zajímavá. Pozn.: Často se používá hodnota 0,15.

Za povšimnutí stojí také to, že obsahuje-li stránka příliš mnoho odkazů, nepřispívá dostatečně odkazovaným stránkám. Naopak máme-li několik stránek, které obsahují jediný link na naši centrální stránku (CS), a z ní vedeme pár odkazů (zpětně se vracející opět na CS), můžeme tak na CS zvýšit PageRank. Typicky bývá CS domovskou stránkou naší firmy. Představenou techniku černé díry, kdy uživatele přivedeme na naši hlavní stránku - a žádným z odkazů jej nepustíme mimo - se pravděpodobně dostatečně věnují kolegové v souběžných článcích (o fulltext marketingu) zde na Lupě. O technikách šalby a boje proti ní se nyní nebudu dále rozpisovat, ale v některém z dalších pokračování se k ní mohu na základě ohlasu v diskuzi pod článkem vrátit.

PageRank se počítá interaktivním algoritmem (nahlédněte do výpočtu Markovova řetězce). Jeho význam nepřispívá jen k určování pořadí výsledku dotazu, ale je i dobrým faktorem pro výběr odkazů ke stažení pomocí crawleru. Tato metoda pak přináší i výrazné zefektivnění procesu indexace a částečně i aktuálnosti nejdůležitějších stránek.

Metahledače Protože už od dob Říma platí, že nikdo neví nic naprosto přesně, je možným řešením na výše uvedené problémy i jiný přístup než zlepšování kvalit jednoho stroje. Metavyhledávače pracují na principu "víc hlav víc ví". Dotaz, který jim položíte, paralelně rozdistribuují na několik specializovaných vyhledávačů a výsledkové listiny poté spojí. Nejtypičtějšími zástupci jsou Metacrawler a SavvySearch (oba rozesílají své dotazy na zhruba 10 strojů). Dalšími pak Dogpile, Infind, MetaFind, Highway61, Cyber411, Mamma (vše .com) atd.

Výhodou je kromě možnosti zohlednění širšího pohledu na dotaz i možnost personifikace, kdy metavyhledávač rozpozná uživatele a na základě jeho profilu modifikuje váhy pro

http://www.lupa.cz/clanek.phtml?show=2035

http://www.lupa.cz/clanek.phtml?show=2035

jednotlivé výsledkové listiny. Přijde-li tak ke stroji kuchař, stroj přiřadí největší váhu té výsledkové listině, která pochází ze specializovaného vyhledávače na vaření.

Tím ale výčet výhod nekončí. Výzkumné laboratoře NEC testovaly stroj, který při spojovaní výsledkových listin ověřoval aktuálnost výsledků, a zda jsou stránky v době položení dotazu vůbec dostupné. Patrně z důvodu obavy z přehlcení kapacit linek nebyl tento stroj, dle mých neověřených informací, poskytnut k volnému veřejnému vyzkoušení.

Jistě si kladete otázku: "Proč vůbec metavyhledávač? Přinese to něco opravdu dobrého?" Zdá se, že ano. V roce 1998 čtyři největší fulltextové stroje indexovaly pouze nepatrný společný zlomek dokumentů - cca jedno procento. V dnešní době se odhady mnohdy velmi liší, ale přesto se předpokládá, že v průniku může být asi pět procent dat. Proto metavyhledávač přináší i jednu podstatnou vlastnost - prohledává větší množství dokumentů už jen prostým kombinováním výsledkových listin.

Ale právě v zakombinování parciálních metrik jednotlivých fulltextů je zakopán největší problém. Je zřejmé, že zvýšení úplnosti je nasnadě, ale je velký problém, co se stane s přesností. Řešení si ponechám do následujícícho dílu. Nepůjde nám jen o prosté přepočítaní relevance z výsledkové listiny (např. tajemného Q fulltextu Webfast), ale metoda musí pracovat i pokud výsledková listina nebude obsahovat žádné hodnoty relevance.

Dalším problémem je spíše technická stránka věci. Nebývá vhodné konstruovat metavyhledávač nad 200 fulltexty. Než k nám dorazí 200 odpovědí, které má metavyhledáváč teprve zhodnotit a zpracovat, může se stát cokoliv. Například nastane chyba na lince a my na odpověď musíme čekat. Proto do hry vstupuje i selekční problém. Místo toho, abychom využívali vše, vybereme jen několik nejrelevantnějších uzlů a těm dotaz pošleme.

Oba dva problémy lze řešit například metaindexem, jehož konstrukci i jednu z implementací (včetně všech matematických formulí) představím v následující kapitole.


Vyhledavače a jejich velká hraZa poslední půlrok se na poli světových vyhledavačů, jako je například Google, FAST, Inktomi či Overture, odehrálo doslova zemětřesení. Firmy měnily svou strategii, navazovaly nová partnerství, kupovaly jedna druhou nebo prostě zkrachovaly. Pojďme se podívat na současnou situaci, včetně konkrétních čísel o návštěvnosti a penězích.

Ty tam jsou doby, kdy provozovatelé portálů vytvářeli svůj vlastní obsah. Současné světové portály jsou jakousi obrovskou skládačkou - vyhledávací technologie téměř vždy dodávají externí firmy specializované na konkrétní činnost.

Pro většinu čtenářů to bude opakování známého, ale na úvod je třeba rozlišit tři základní typy vyhledávání:

katalog - Lidmi utříděné a popsané odkazy uspořádané do stromu podle témat. fulltext - Hledání v celém textu stránek, které jsou robotem sesbírány z Internetu. PPC - Textové reklamy, které jsou ukazované vždy na určitý vyhledávací dotaz.

Inzerent platí za odkliknutí - odtud název PayPerClick.


Pravidla hry Prvním a posledním pravidlem, kterým se všichni světoví hráči (portály, vyhledavače i PPC systémy) řídí, je maximalizace zisku. Některé z firem - Overture a Yahoo! - to hlásají jako svou filosofii, jiné raději mluví o službě veřejnosti či vyhledávacím zážitku a pouze v nestřeženém momentu přiznají, že jejich prioritou je ziskovost.

Příjem portálu se dá vyjádřit jako počet uživatelů krát průměrný příjem na uživatele. Portál se tak může vydat dvěma extrémními cestami - usilovat o co největší návštěvnost, nebo každého uživatele co nejlépe zpeněžit. Problém je, že obojí najednou příliš realizovat nejde - pokud to portál s reklamami a placenými službami přežene, uživatelé mu utečou.

Jak to tedy chodí? Portál obvykle vyhledávací služby nakupuje, tedy uzavře smlouvu s firmou vyvíjející vyhledávací technologii - v zahraničí například od Google, Inktomi nebo FAST. Podepíše ale také smlouvu s nějakým PPC systémem (Overture, eSpotting, Findwhat). Na svých stránkách pak prezentuje nejdříve placené odkazy a pak teprve neplacené (rozdíl je vždy více či méně zřetelně označen). Placené textové odkazy jsou v současnosti cestou, kterou portál získává největší díl příjmů (a zároveň jsou uživateli přijímány pouze s malým odporem).

Hráči Existují "uživatelské destinace" (obvykle portály), tedy místa, kam chodí uživatelé, a pak také firmy, které vytvářejí technologie. Toto mohou být tytéž subjekty, ale často nemusí. Kdysi mělo prostě Yahoo! svůj katalog, Altavista svůj fulltext a Overture (tehdy Goto) svůj PPC vyhledavač. Uživatelé chodili na web jednoho z nich a užívali jejich nabídek. V následujících letech ale nastal velký kolotoč, služby jednoho začal používat druhý, a postupem času se ukázalo, že takové partnerství je ku prospěchu všech zúčastněných. Stal se z toho v podstatě standard a dnes už prakticky neexistuje portál, který by neintegroval všechny tři prvky - PPC, katalog i fulltext. Často se tak objevují i portály, které nemají žádnou vlastní technologii, a přesto docela obstojně fungují - např. MyWay, Lycos, Netcape, donedávna i iWon.

Jak provozovatele portálů (destinace), tak i tvůrce vyhledávacích technologií budeme nazývat "hráči" a představíme si ty nejvýznamnější:

Yahoo - původně katalog, nyní provozovatel portálu s širokým záběrem - vyhledávání, email, zpravodajství, finance, hry...

Google - provozovatel reklamního systému Google Adwords a fulltextového vyhledavače, který si získal masovou oblibu.

Overture - největší PPC systém. FAST - tvůrce fulltextového vyhledavače, v některých ohledech lepšího než Google, a

datových vyhledavačů pro firmy. MSN - divize Microsoftu provozující portál MSN.com. Ten je poměrně navštěvovaný,

protože je nastaven jako domovská stránka prohlížeče MSIE. Teoma - vyhledavač pracující na principu "autorit a rozcestníků", což je technika

fungující podobně jako Google PageRank, ale vždy pro určité téma, dané uživatelským dotazem - to zaručuje přesnější výsledky.

Wisenut - vyhledavač, který při svém spuštění dělal velké vlny, ale nic z toho pak nebylo. Nicméně byl za 9 milionů dolarů koupen jiným významným hráčem, a tak o něm ještě uslyšíme.

AskJeeves - vyhledavač snažící se odpovídat na otázky položené v přirozeném jazyce. U nás téměř neznámý, ale hodně oblíbený mezi Američany.

AOL - provozovatel internetového připojení, vlastního "prohlížeče" a portálu. Spojen s Time Warner do obrovského mediálního kolosu.

Looksmart - katalog, který byl používán na velkém množství portálů. Nyní pomalu skomírající.

O tom, co tito hráči v poslední době prováděli - kdo s kým a za kolik spolupracuje, a kdo koho koupil, bude celý příští článek.

Figurky Každý hráč má dvě základní hodnoty, na kterých může stavět - své návštěvníky a své peníze. Někteří mají jedno, jiní to druhé, další obojí. Zhruba sice platí jakási přímá úměra mezi počtem návštěvníků a příjmy firmy, ale nemusí tomu tak být - Inktomi třeba nikdy žádné návštěvníky nemělo (a málokdo jej zná) a přesto je obchodně velmi úspěšné. Projektů, které mají mnoho návštěvníků bez nejmenšího komerčního potenciálu, znáte jistě také dost.

Na závěr se podívejme na konkrétní čísla o návštěvnosti. Následující tabulka udává výsledky měření provedeného firmou Nielsen/NetRatings (via SearchEngineWatch). Jde o miliony hodin strávených vyhledáváním, tak jak to bylo změřeno na základě sledování chování vzorku 60 tisíc amerických uživatelů.

Web Doba

Google 18,7

AOL 15,5

Yahoo 7,1

MSN 5,4

AskJeeves 2,3

InfoSpace 1,1

Altavista 0,8

Overture 0,8

Netscape 0,7

Za povšimnutí stojí hlavně dominance Google. Uvažte, že jeho vyhledavač je používán i u druhého AOL a třetího Yahoo!. Měření prováděná jinými metodami u něj udávají o trochu nižší hodnoty, ale přesto má výrazně nadpoloviční podíl celosvětového vyhledávání.

Finanční výsledky jednotlivých společností jsou neméně důležité - většina velkých zahraničních firem je uvádí v ročních a čtvrtletních zprávách. Z nich jsem sestavil níže uvedenou tabulku udávající jejich výnos a zisk. U Google jde o neoficiální informace. U MSN se jedná o příjem této divize Microsoftu jen za druhou půlku roku 2002 - zisk / ztráta nebyla ve zprávách, které jsem našel, uvedena, ale tato divize je dlouhodobě ztrátová.

Firma Výnos ($) Zisk ($)

MSN 886 mil. ztráta

Yahoo 953 mil. 43 mil.

http://searchenginewatch.com/reports/netratings.html

Overture 667 mil. 73 mil.

Google 300 mil. 100 mil.

AskJeeves 74 mil. -21 mil.

FAST 45 mil. 1 mil.

To je pro dnešek vše - v druhé části tohoto článku se budeme zabývat konkrétními případy - dozvíte se něco o velkých změnách, které se nedávno odehrály - třeba o tom, jak Yahoo! koupilo Inktomi a Overture Altavistu, a o velkém boji s Googlem, na který se tímto přichystali.


Vyhledavače a jejich velká hra IIDnes se podíváme na několik posledních tahů v této celosvětové partii: proč a za kolik koupila společnost Yahoo! vyhledavač Inktomi, z jakého důvodu Overture koupil hned dva velké fulltexty (Altavistu a FAST), co se chystá Google dělat s nově získaným Bloggerem. Toto a mnoho dalšího se dočtete v závěrečném dílu našeho miniseriálu.

Kdysi byla situace jednoduchá - každý provozoval to, co sám vyvinul, a uživatelé, kteří potřebovali tu kterou službu, šli přímo ke zdroji. V poslední době je ale trend, že portály služby licencují, a přinesou tak svému uživateli vše až pod nos. V jistém směru je to logické - technici portálu snáze odhadují kvalitu služby než běžný uživatel, a jsou tak schopni zajímavé novinky dříve rozpoznat. Zároveň ale nechtějí, aby jejich uživatelé odešli přímo za službou, a tak udělají nejrozumnější krok: integrují ji.

Za poslední rok a půl dochází k ještě bližšímu spojení - měsíc co měsíc vycházejí tiskové zprávy o tom, jak jednotliví hráči na poli vyhledávání kupují jeden druhého. Podívejme se na všechny významné akvizice v poslední době, na jejich podmínky a vliv na další vývoj odvětví.

Teoma & Wisenut Když byly tyto dva vyhledavače spuštěny, bylo to za hlasitého vykřikování, že jsou či budou lepší než Google. V jistém směru je to pravda - Teoma má skvělou technologii řazení výsledků, kdy namísto PageRanku, který je stále stejný pro všechny dotazy, používá analýzu odkazů závislou na konkrétním dotazu uživatele, a může tak dojít k tématicky lépe cíleným výsledkům. Zato Wisenut šel do boje s jinou zbraní: v době spuštění měl větší databázi dokumentů než Google.

Jenže každému z této dvojice chybělo to, co uměl ten druhý. Teoma měl maličkou databázi (a dodnes to příliš nenapravil, ačkoliv je tu vidět pokrok). Wisenut naopak zaostával v kvalitě výsledků a později se ukázalo, že svoji velkou databázi nedokázal aktualizovat. Jako jeden z mála vyhledavačů Wisenut běží na Windows, což mu pozici jen ztěžuje - unixové systémy, které používá Google (Linux) či FAST (FreeBSD), jsou lépe přizpůsobené náročným distribuovaným výpočtům a navíc jsou zadarmo.

Přesto oba tyto vyhledavače (vzešlé z akademického prostředí) nabízely slušný potenciál, a tak byly dobře prodány. Nejprve 18. září 2001 Ask Jeeves získal Teomu za čtyři miliony

http://wisenut.com/

http://teoma.com/


dolarů (přesněji 1,6 milionu dolarů a nějaké akcie, tisková zpráva) a pak 12. března 2002 Looksmart koupil Wisenut za 9,25 milionu dolarů (tisková zpráva).

Wisenut spolu s mateřským Looksmartem pomalu umírá, zato AskJeeves / Teoma patří i přes udivující a legrační výsledky k jedněm z nejpopulárnějších vyhledavačů.

Yahoo! kupuje Inktomi Přenesme se nyní o půl roku dopředu, kdy se rozhýbali daleko větší hráči. Yahoo! nikdy neměl problémy s nedostatkem volných peněz, a tak si k Vánocům vybral pěkný dáreček - 23. prosince 2002 oznámil akvizici Inktomi za 235 milionů dolarů. Tato firma není u veřejnosti příliš známá, ale dlouhou dobu stála za většinou vyhledávání na světě a dodnes její fulltext používá Microsoft.

Krok Yahoo! je zcela pochopitelný - Google, který mu dodává fulltextové výsledky, za poslední roky pořádně vyrostl a svou popularitou mu krade uživatele. Yahoo! se musí bránit a logický krok je mít vlastní vyhledavač - vyvinout jej ale trvá dlouho, a tak prostě koupil svého bývalého dodavatele výsledků.

Yahoo! s podobným krokem zřejmě dlouhodobě počítalo, protože smlouvu s Google uzavřelo neexkluzivní - stále si může vybírat, čí výsledky na svém portálu použít. Je tedy pouze otázkou času, kdy začne používat vlastní vyhledavač. Ale nemusí to být příliš brzo - takoví mamuti se hýbají poměrně pomalu a také může mít ve smlouvě s Google některé podmínky, které by takový krok činily finančně nevýhodným.

Overture také nakupuje... Overture byl až donedávna známý výhradně jako provozovatel sítě přednostních výpisů (PPC) - původně nazývané GoTo, ale kvůli právním tahanicím s Go2 změnila raději jméno.

Před měsícem ale překvapil svět koupí světoznámé Altavisty. Za tento vyhledavač kdysi firma CMGI zaplatila neuvěřitelné 2,3 miliardy dolarů (za 83procentní podíl), nyní jej prodala za 140 milionů (v akciích Overture a hotovosti). Takhle vysoko se padá z vrcholu dot-com horečky...

Oborem to poměrně silně zatřáslo, jako příklad je možné uvést výkřik kohosi z diskuse na WebmasterWorld: "Call me shocked!?!?!?!?! I am indeed shocked. Can the face of search change anymore rapidly than it is of late? Wow." To ještě nevěděl, že za týden přijde druhý velký nákup:

25. února 2003 oznámil Overture koupi fulltextového vyhledavače od FAST (tisková zpráva; poznámka: poslední tři akvizice musí ještě schválit jakýsi úřad - nejsou definitivní). Otázka, která se nabízí: Proč koupil Overture dva vyhledavače?

Jedna odpověď může být, že chtěl trochu proklestit celý trh - zmenšit počet hráčů. To vede k vyšším cenám, a to by se Overture jistě líbilo (nejde přitom jen o ceny licencí vyhledavače, ale i o doprovodné služby - např. placené zařazení do databáze). Zároveň tak zabránil tomu, aby Microsoft koupil některý z vyhledavačů. A do třetice (v této linii uvažování) tak zvýšil svou vlastní hodnotu pro případnou koupi Microsoftem.

http://www.corporate-ir.net/ireye/ir_site.zhtml?ticker=OVER&script=410&layout=0&item_id=385605

http://www.webmasterworld.com/forum33/1387.htm

http://www.webmasterworld.com/forum33/1387.htm

http://web.ask.com/web?q=jyxo&o=0

http://www.shareholder.com/looksmart/releaseDetail.cfm?ReleaseID=74579

http://www.irconnect.com/askjinc/pages/news01.mhtml?d=20309

Druhá odpověď je prostší: chce mít kompletní portfolio služeb. Takhle bude schopen nabízet jak PPC odkazy, tak i "algoritmické" výsledky. Dva vyhledavače nejspíš provozovat do budoucna nechce a dříve či později je sloučí.

Spojení technologií Altavisty a FAST nebude vůbec jednoduché. Pokud bych o tom rozhodoval já, tak bych v roli Overture nejspíš celý engine Altavisty zahodil a pokračoval dál v podpoře FAST. Z Altavisty je ale možné přejmout třeba jejich technologii Prisma, což je docela rozumné doporučování slovních spojení, která jsou podobná uživatelově původnímu dotazu. A samozřejmě velikou hodnotu má samotné jméno "Altavista", pod kterým by mohli vyhledavač dále propagovat. Kombinace technologie od FAST, jména od Altavisty a peněz od Overture vytváří do budoucna mimořádně silnou kombinaci.

Google kupuje Pyra Google již kdysi koupil Dejanews, vyhledavač v news konferencích. Úspěšně jeho databázi integroval do svého portálu, a získal tak v tomto oboru čistý monopol - nikdo jiný na celém světe v newsgroup nevyhledává.

Nyní provedl druhou významnější akvizici ve své historii. Pyra je tvůrcem populárního Bloggeru, systému pro jednoduché publikování na Internetu (podle nedávného miniprůzkumu je Blogger nejpopulárnější i mezi českými blogy).

Po oznámení koupě mnozí spekulovali o tom, jak by mohl takový Blogger obohatit výsledky Googleova hledání, ale přibližně za týden se dozvěděli mnohem prozaičtější důvod: Google nyní do blogů cpe reklamy. Říká tomu content-targeted ads a funguje to tak, že zatímco dříve pomocí Google Adwords zobrazoval textové reklamy jen ve výsledcích vyhledávání, nyní je zobrazuje i na stránkách některých partnerských webů - jeho robot si přečte, co se na nich píše, a přidá tam více či méně cílenou reklamu. Viz také tisková zpráva Google.

Kdo s kým proti komu

Poslední dva měsíce pořádně zamíchaly kartami. Jsou tu ale zřetelné tři prvky:

1. Hráčů ubývá. Počet firem, které působí v celosvětovém vyhledávání, se povážlivě zmenšil. Některé zanikají, zbylé se slučují dohromady - zbude jen několik přeživších.

2. Yahoo! chce mít vyhledávání doma. Dnes, když na tomto portálu vyhledáváte, dostanete nejprve PPC odkazy od Overture, pak fulltextové výsledky od Google (s popisky od editorů Yahoo!). Yahoo! se zřejmě připravuje na to, že obojí bude dělat samo - bude provozovat vlastní PPC a vlastní fulltextový vyhledavač.

3. Overture jde do boje proti Google. Obě firmy nyní provozují prakticky totéž: PPC a fulltext. Obě firmy bojují o stejné klienty: velké portály a inzerenty. A obě firmy jsou nyní přibližně stejně silné.

Tento rok bude tedy v oblasti celosvětového vyhledávání ještě rušno a jistě se dočkáme zajímavého vývoje...


Jak pracuje metavyhledávač?Jak pracuje metavyhledávač? Co je to metaindex? V minulé kapitole jsme si již představili metavyhledávače a myšlenku, která za nimi stojí. Prezentovali jsme i dva základní problémy


http://www.google.com/intl/cs/press/pressrel/advertising.html

http://blogger.com/

http://alltheweb.com/

spojené s těmito typy strojů. Prvním z nich je metodika přepočítaní parciálních vah, druhým tzv. selekční problém.

Strojem, na kterém si představíme jedno z možných řešení, je SavvySearch. Důvodem jeho volby je nejenom jednoduchá konstrukce, ale i schopnost řešit oba zmíněné problémy jedinou datovou strukturou - metaindexem.

Struktura metavyhledávače Architektura metavyhledávače se většinou dělí na tři moduly. Prvním z nich je odbavovací modul. Jeho úkolem je volba těch dílčích vyhledávačů (DV), kam bude dotaz distribuován. Vlastní volba může být zajištěna plně automaticky nebo s pomocí uživatele. Existují i metody, při jejichž použití dochází k určitému stupni poloautomatizace. V takových případech má například uživatel možnost neustále zvyšovat počet DV, kterým metevyhledávač (MV) distribuuje dotaz.

Musíme si uvědomit, že tento modul je jedním z nejkomplikovanějších, protože nikdy přesně neví, jaká data jsou na DV nebo jak se mění v čase. Metoda, kterou dnes představujeme, patří do kategorie ex-post, neboli metod, které se na základě svých zkušeností učí (pozn.: existují i metody, které určité hodnoty předvídají). Své získané zkušenosti si pak ukládá do metaindexu, kde se určitým výpočtem míchá obsáhlost výstupu a jeho používání uživateli.

Jakmile máme připravený transakční plán, můžeme přistoupit k formulování a distribuci dotazů na jednotlivé DV, a poté i k analýze výstupu (myšleno parsování). Tyto činnosti zajišťuje další modul, a tím je správce agentů rozhraní. Posledním modulem v řadě je tvůrce odpovědi. Ten zpracuje podle transakčního plánu dílčí odpovědi. Přitom vyřazuje duplicity, případně provádí další činnosti (ověřování aktuálnosti dílčích odpovědí atp.).

Metaindex Zbývá popsat nejdůležitější strukturu celé operace - metaindex. Metaindex je matice MmxS (m řádků, S sloupců), která na políčku Mi,j obsahuje známku pro odpověď na slovo ti (i-tý term) strojem j. Před zahájením práce stroje bývá nastavena na hodnotu 0, v průběhu fungování stroje a jeho učení se může posléze nabývat hodnot kladných (odpovídajících dobré relevanci a celkové kvalitě) nebo naopak záporných.

Pozn.: Metaindex se konstruuje na základě předchozích znalostí, např. za uplynulý den. Jeho výchozí hodnota je za každý dotaz s x termy upravena o hodnotu 1/x. Penalizace je uplatněna pro všechny termy z dotazu, pokud stroj nevrátí žádný výsledek nebo výsledek, který uživatele nezajímá.

Pozn.: Hodnoty metaindexu lze přednastavit na hodnoty odpovídající vlastním testům nebo recenzím DV. Je možné metaindex určitým způsobem normalizovat (např. normalizovat nejprve vektory řádků, poté sloupců či naopak pouze vektory sloupců apod.). Je také možné udržovat metaindex pro každého uživatele zvlášť, resp. udržovat centrální metaindex (tzv. "defaultní", pro neregistrovaného uživatele) a relativně řídké rozdílové matice pro registrované uživatele. Další modifikace základní metodiky zajisté naleznete sami. Jejich uplatnění závisí na prostředí, ve kterém MV pracuje, a přesný popis všech je nad rámec tohoto příspěvku.

Velice důležitou hodnotou, kterou budeme potřebovat, je inverzní frekvence vyhledávacího stroje (IFV, angl. IEF - inverse engine frequency). Někdy bývá též označována jako inverzní hodnota termu v rámci DVů. Její hodnota se pohybuje od 0 až po velmi velká kladná čísla a udává míru, nakolik je term v rámci DVů rozpoznatelný. Ukažme si vše na následujícím příkladě.

Máme dotaz složený z několika slov. Je bezpochyby naším cílem zajistit, aby parciální dotaz putoval na DV, kde je vysoká (nebo alespoň kladná) hodnota metaindexu M. Zároveň pro nás ale nejsou důležitá slova, která jsou takto dobře řešitelná všude, protože to nám příliš nerozvrství vrácené parciální dotazy na více či méně relevantní. Naproti tomu slova, která dobře řeší jen pár DV, ale ostatní nikoliv, jsou velice důležitá - ta nám pomáhájí vrácené výsledkové listiny dobře zpracovat.

Výpočet ief pak vychází z kalkulace, kterou si v průběhu tohoto seriálu připomeneme ještě alespoň jednou - a to u vektorového modelu. Nejprve ale nadefinujeme hodnotu, která počítá, na kolika strojích je term dobře řešitelný:

ft = count( s=1..S; Mt,s > 0 )

Vlastní ief pak určíme jako

ieft = log( S/ft )

Nyní můžeme kalkulovat podobnost dotazu Q vůči stroji S jako

simS,M(Q) = sum( all t in Q; Mt,S ieft ) / length( MS )

Přičemž MS představuje vektor reprezentující S-tý sloupec matice M a jeho délku length spočteme klasicky jako odmocninu ze součtů kvadrátů všech jeho složek (pozn.: pro dvě složky by se jednalo o známou Pythagorovu větu).

Pakliže jsme již prováděli odpovídající normalizace metaindexu, jak bylo naznačeno v poznámce v úvodu této podkapitoly, nemusíme již délku vektoru sloupce metaindexu počítat a ušetříme tak trochu výkonu stroje při výpočtu relevancí.

Vlastní hodnota sim, kterou jsme zatím vypočítali, není ještě příliš vhodná pro skutečné nasazení. Je dobré se v prostředí Internetu chovat poněkud decentněji. Tím myslím například to, že nemá cenu zaplavovat neustále dotazy servery, které jsou aktuálně přetížené nebo v poslední době nemají kvalitní odezvu. Proto například SavvySearch započítává rovněž aktuální penalizace za nekvalitní výsledky nebo horší dobu odezvy. Výpočet těchto penalizací můžete nalést v [DH97].

Vlastní přepočítaní parciálních relevancí se provádí prostým pronásobením s hodnotou podobnosti pro daný DV, která je za tímto účelem pochopitelně normalizována, např. na interval 0..1. Pokud stroj parciální relevance neposkytuje, můžeme je stanovit sami. Metody, jak to učinit, se nedají zobecnit a přímo závisí na DV, pro který chceme relevance dopočítat. Můžeme např. relevancí zásahů proložit určitou křivku (převrácenou hodnotu exponenciály, funkci 1/n nebo diskrétní odstupňování od 1.0 až k 0.0 a dokonce i pevné nastavení na hodnotu 1/2) nebo si metavyhledávač stáhne aktuální podobu stránek výsledkové listiny a relevance si dopočítá např. na základě metod, které si představíme později. Zde se již ale

jedná o řešení, které nemusí být vhodné pro volný internetový provoz, ale spíše pro firemní vyhledávací brány.

Zmínili jsme možnost, že je metaindex udržován personalizovaný. V takovém případě doznává změn na základě zpětné vazby, kdy se sleduje, na které zásahy ve výsledné listině uživatel nahlédl. Pokud nepersonalizujeme, můžeme sledovat totéž pro všechny stroje, a tento výpočet provádět v určitých časových dávkách analýzou logu.

Podstatný rozdíl je ale v tom, jak moc přidáváme nebo naopak snižujeme hodnoty v metaindexu. Konzervativní chování (malé změny hodnot) by mělo být používano výhradně pro nepersonalizované stroje, které jsou ostatně pro Internet používány nejvíce.

Závěr, výhody Výhody metavyhledávačů jsou jednak ve velké úplnosti a také v možnosti integrovat libovolné vyhledávací služby do jediné. To může být výhodné pro firemní vyhledávací brány. Nehledě na fakt, že metavyhledávač nemusí stahovat webové stránky k indexování, takže je, co se týče provozních nákladů, nesmírně výhodný.

Na druhou stranu je ale s podivem, že v české doméně nepracuje jediný funkční metavyhledávač, přestože jejich konstrukční náročnost odpovídá většímu zápočtovému programu na mnohých vysokých školách...

Dodatek V následujícím díle popíšeme centralizované i distribuované architektury vyhledávacích strojů. Distribuovanou architekturu budeme demonstrovat na stroji, který pro svoje potřeby využívají takové organizace jako CIA nebo NASA. Dále se budeme zabývat již vlastními modely a jejich kritikou.


Architektury a modely webových strojůTaké vás někdy zajímalo, jaké nástroje používají pro práci s velkými objemy informací v CIA nebo NASA? V dnešním pokračování se podíváme blíže na strukturu webových vyhledávačů a představíme i stroj těmito agenturami používaný. Zároveň s tím popíšeme některé základní modely, na kterých fulltextové stroje pracují.

Webový vyhledávací stroj se od svého běžného bratříčka, kterého používají například v knihovnách, liší kvůli odlišným podmínkám, ve kterých pracuje. Předně je pro něj poměrně obtížné získat data k indexování v krátkém časovém intervalu. S touto problematikou (resp. s určením, co tahat nejdříve) může do jisté míry pomoci již zmíněná technika PageRank, ale ani ta není všemocná. Proto prvotní indexace stojí poměrně dost času, tedy pokud ji neprovádíme nadmíru agresivně. Tím se ale mezi správci webů staneme nevhodně populárními.

Dalším problémem je i to, že dokumenty v době řešení úkolů nemusíme mít přímo přístupné, a proto by techniky měly využívat algoritmů, které nepotřebují k zodpovídání uživatelských dotazů originální texty.

Centralizovaná architektura Všechny české stroje, i naprostá většina zahraničních, využívají nejjednodušší 2-stupňovou


architekturu. Její první stupeň (crawler) dokumenty stahuje a předzpracovává a návazný stupeň (indexer) z těchto dat vyrábí požadovaný index.

Základní problém, kterému toto řešení čelí, je objem dostupných dat přístupných v celosvětové internetové síti. Je jen otázkou technických omezení, kdy už nebude možné všechna data stahovat a vyrábět jeden centralizovaný index. Tomu by měla zabránit právě distribuovaná architektura.

Distribuovaná architektura Základní myšlenka tohoto typu řešení spočívá v procesu zpracování dat na jednom z uzlů a v následné distribuci výsledku do zbytku systému. Pro implementaci ji využil jeden z prvních představitelů - stroj Harvest.

Tento stroj v současnosti používá americká CIA a NASA, a byl navíc jako "public domain software" včleněn do mnoha komerčních produktů (např. Netscape Catalog Server). Pokud si budete chtít zkoušet vlastní instalaci, nebuďte šokováni na dnešní dobu dosti dřevním webovým rozhraním, protože jeho kvalitní srdce bije právě pod touto slupkou. Stejně tak věnujte dostatečnou pozornost procesu reindexovaní. Pokud provedete chybu v jeho nastavení, má démon Harvestu velkou touhu padat právě v reindexačním procesu.

Harvest jako jeden z prvních představil systém Gathererů a Brokerů. Gatherer je zodpovědný za shromáždění a zpracování informací z jednoho (nejčastěji lokálního) nebo více webových serverů. Broker pak získává předzpracovaná data z jednotlivých gathererů nebo i dalších brokerů. Na základě těchto informací následně obnovuje jím spravovaný index, s jehož pomocí pak řeší uživatelské dotazy.

Je-li systém brokerů dobře vyladěn, umožňuje obrovské úspory v indexačním procesu. Je to dáno tím, že daný broker distribuuje své výsledky dalším brokerům, kteří je pak nemusí pracně získavat z gathererů. Kromě toho je Harvest vybaven i replikačními mechanismy. Ty umožňují rychle přemostit a nahradit chybující systémy, příp. zajišťují posílení systému rozkladem zátěže.

Modely Abychom se mohli postupně odlepit od teoretických úvah a popisů, bude nutné zmínit některé z modelů vyhledávacích strojů. Model je vlastně myšlenkový princip, na kterém stroj běží. Takových principů existuje několik a významně modifikují implementaci takových postupů, jako je sběr zpěrné vazby nebo clusterovaní.

V dnešní době žádný skutečně dobrý vyhledávač nepracuje na základě jediného z modelů, které představíme. Spíše se hledají cesty, jak několik modelů sladit tak, aby se jejich negativa vzájemně potlačila. Výpočty, které budeme postupně představovat, vycházejí ze základních implementací a nejsou vhodné pro velké báze textů, kde ve všech případech dochází k znásobení veškerých negativních aspektů daného modelu.

Pro jednoduchost označme di i-tý dokument; q dotaz složený ze slov q1 až qt; relevanci, nebo-li podobnost, dotazu q a dokumentu di jako simdiq.

Boolský model Tento model je jeden z nejstarších vůbec a v minulosti býval hojně používán v knihovnických informačních systémech. Na dotaz vrací jako výsledky ty dokumenty, které obsahují slova z

http://www.tardis.ed.ac.uk/harvest/

dotazu. V základní variantě neumožňuje stanovování relevance a funkce podobnosti je vyčíslována pouze s hodnotami 0 (zásah nenalezen) nebo 1 (zásah).

V pozdějších variantách byl boolský model obohacen o jemnější výpočet relevance, viz. výpočet Q strojem Webfast. V příslušné recenzi jsem ukázal dotazy, které vedou buď k příliš malé nebo naopak příliš rozsáhlé odpovědi na dotaz. To je také hlavní nevýhoda tohoto modelu, který bývá pro své výsledky označován jako model pro získávání dat, nikoliv informací.

Vektorový model Vektorový model umožňuje jemnější výpočet relevance. Myšlenka je opět velice jednoduchá. Každý text či dotaz (prostě jakákoliv skupina slov) je reprezentován bodem v n-rozměrném souřadnicovém systému. Tento bod představuje i vektor (začínající v počátku souřadnic), a tak dostal model i svůj název.

Konstrukce bodů je taková, že čím blíže jsou k sobě, tím více reprezentují podobný (dokonce téměř totožný) text. Dále ale budeme hovořit o vektorech, nikoliv bodech. Možná si pamatujete, že skalární součin dvou vektorů vychází největší, pokud mají tyto vektory stejný směr. Jako nulový vychází, pokud mají vektory směr opačný. Tohoto jevu bývá s úspěchem využito pro vlastní kalkulaci podobnosti.

Jak se stanovují vektory? Předpokládejme, že v textech máme n rozdílných slov. Toto n také určuje onu n-rozměrnost našeho vektorového systému. Každý vektor pak na souřadnici - odpovídající danému slovu - obsahuje jeho četnost (ať již v jednotlivém dokumentu, nebo třeba dotazu).

Podobnost stanovíme jako skalární součin dvou vektorů - ty budeme pro přehlednost označovat jako v(). V případě podobnosti dotazu a dokumentu pak tato formule vypadá takto:

simv(dj),v(q) = sum( i=1..n; wi,j wi,q )

kde v(dj) = (w1,j,..wn,j) a v(q) = (w1,q,..wn,q). Hodnoty wi,j udávají počet slova ti v j-tém dokumentu. Podobně wi,q udává počet slova ti v dotazu q.

V pokročilých implementacích již wi,j nepředstavuje četnost, ale naopak důležitost, která má většinou výchozí kalkulaci v četnosti.

Dále nebývá vhodné nechat růst vektory (jejich délku) nade všechny meze. Proto je výhodné normalizovat používané vektory na jednotkovou délku.

Tím je pak do značné míry zajištěno, že původně dva krátké vektory (protože obsahovaly jen malý počet slov), jdoucí týmž směrem, nebudou při výpočtu podobnosti pomocí skalárního součinu přebity dvěma velice dlouhými vektory, které již ale nejdou tak úplně týmž směrem. Tak dostáváme základní formuli:

simv(dj)v(q) = sum( i=1..n; wi,j wi,q ) / ( length( v(dj) ) length( v( q ) ) )

Nakonec ještě zmíním způsob, kterým lze efektivněji kalkulovat wi,j. Četnosti slov, které jsme původně používali jako wi,j, označme nyní freqi,j (frekvence i-tého slova v j-tém dokumentu). Pak jako normalizovanou frekvenci použijeme:

tfi,j = freqi,j / max( all l; freql,j )

Ještě spočteme inverzní frekvenci dokumentu pro i-té slovo, idfi. Pozn.: vysvětlení této kalkulace je obdobné jako při výpočtu ief (viz. metavyhledávače).

idfi = log( N/ni)

kde ni je počet dokumentů obsahujících i-té slovo a N je počet všech dokumentů.

Pak můžeme určit wi,j takto (jedná se o skutečně jednu z nejlepších formulí):

wi,j = tfi,j . idfi

Pokud uvidíte stroj s vyhodnocováním tf.idf, jedná se o stroj právě s variací této formule. Její další zkvalitnění přineseme ve zvláštní kapitole.

Pro výpočet w-hodnot pro dotaz q se ale s ohledem na malý počet slov v dotazu používá většinou jiná kalkulace. Asi nejpoužívanější je formule od Saltona a Buckleye:

wi,j = (0.5 + 0.5 tfi,q ) idfi

Dodatek Mezi základní modely patří ještě pravděpodobnostní model, fuzzy model, neuronový, latentní sémantický a spousta modifikací Beyesovských sítí. Ty zatím pomineme pro jejich celkovou složitost a v neposlední řadě i obtížnost zápisu a popisu v HTML. V dalším díle se proto budeme zabývat hlavně praktickými vylepšeními základních formulí a eliminaci některých nevýhod obou představených modelů.


Jehla v kupce sena: rozšířený boolský modelTato poslední kapitole věnované teoretickému pozadí vyhledávacích strojů se zabývá rozšířeným boolským modelem (RBM). Mezi jeho reprezentanty, avšak s částečně atypickou implementací, můžeme počítat takové stroje, jako je např. WebFast nebo různé vyhledávače s databázovým základem (například via SQL).

RBM byl porpvé představen již v roce 1983 (Salton, Fox, Wo) a jeho hlavním cílem bylo přidat do klasického boolského modelu jemnější funkci podobnosti dotazů a dokumentů. Klasický boolský model zná pouze ohodnocovací funkci 0-1, kde 1 znamená relevatní dokument, 0 opak. S tím lze vystačit pro získávání dat (a la unixová utilita grep), nikoliv však získávání informací. Nyní si ukážeme původní implementaci RBM.

Ta si kladla za cíl umožnit v dotazech s typicky boolskými operátory (AND, OR) práci nejen s hodnotami true, false (tedy 1, 0). Díky této vlastnosti je po vyčíslení dotazu výsledek nikoliv 0-1 jako v případě boolského modelu, ale 0 a poté více nenulových kladných ohodnocení (končících hodnotou 1).

Jak na to? Předně už můžeme vyjít z formule tf.idf pro wi,j, kterou jsme představili u vektorového



modelu. Dokument dj je pak reprezentován jako vektor (nebo bod) se složkami (w1,j, w2,j, ... wt,j). Pro jednoduchost si ale představme, že nepracujeme s mnoha slovy (termy), ale jen se dvěma (t=2). Díky tomu veškeré vektory (resp. body) můžeme uvažovat ve dvou-rozměrném prostoru.

Představme si nyní dvě možnosti. Máme dotaz typu X AND Y, nebo dotaz X OR Y, kde X a Y jsou naše jediné dva termy. Čím se liší uvedené dva dotazy? Uvažujeme-li dotaz s AND, pak je pro nás lepší ten dokument (na obrázku reprezentovaný body A a B), který je blíže bodu (1,1) (viz. obr. AND-bod). Jinými slovy, dokument s největším doplňkem vzdálenosti z (1,1). V případě OR dotazu, je zase lepší ten dokument, který je dále od bodu (0,0) (viz. obr. OR-bod).

Předpokládejme, že dokument d (respektive jeho vektor) má souřadnice (x,y). Potom spojku typu X OR Y (pochopitelně x u d odpovídá hodnotě pro term X, dtto pro y) vyhodnocujeme jako vzdálenost bodu d od OR-bodu. Aby tato podobnost vycházela vždy mezi hodnotami 0 až 1, nepoužijeme klasickou Pythagorovu větu, ale provádíme i normalizaci faktorem odmocnina ze dvou (sqrt(2)):

sim(X OR Y, d) = sqrt( x2 + y2 ) / sqrt( 2 )

Pro X AND Y postupujeme obdobně, ale vzdálenost, která nás zajímá je měřena od AND-bodu:

sim(X AND Y, d) = 1 - sqrt( (1-x)2 + (1-y)2 ) / sqrt( 2 )

Budeme-li předpokládat, že všechny hodnoty x-ů i y-nů jsou pouze boolské (tj. 0 nebo 1), pak podobnosti nabývají tří možných hodnot.

To je sice pěkné, ale můžeme jít ještě dále, a to zakomponováním p-normy. Tím zahrneme do RBM téměř vše, co jsme dosud poznali (vč. klasického vektorového modelu).

P-norma aneb dokonalé spojení Předně je potřeba poznamenat, že tajemné p musí být známo před kalkulací podobnosti, a to buď nastavením systému nebo volbou uživatele.

Pozn.: České vyhledávače tuto techniku neimplementují, přestože by dala možnost volit mezi vektorovým, boolským nebo dokonce určitým typem fuzzy dotazů v jediném stroji nad jedním indexem. Kdyby se takový stroj v české doméně našel, zajisté by vyšel z recenze se vztyčenou hlavou a ohodnoceními vysoce nad průměrem. Je ale otázka, zda velikost českého Internetu dovoluje implementaci podobné techniky.

Dosud jsme se pohybovali ve dvourozměrném prostoru s klasickou Euklidovskou geometrií. V p-normě pak místo druhých mocnin a odmocnin používáme jejich ekvivalenty o základu p. Naše stávající formule pak vypadají takto:

sim(X OR Y, d) = (( xp + yp ) / 2 )(1/p)

a

sim(X AND Y, d) = 1 - ( (1-x)p + (1-y)p ) / 2 )(1/p)

Bude-li p rovno jedné, pak tyto formule degradují na formule vektorového modelu. V takovém případě je dokonce irelevantní, zda se kalkuluje AND nebo OR varianta podobnosti - z obou vychází tytéž výsledky.

Naopak v případě, kdy se p blíží nekonečnu, přechází formule na modely blízké fuzzy modelu, a to je ve svém důsledku jen zobecněný boolský model. Tím se nám teorie tak trochu sama uzavírá do zobecněného principu. (Pochopitelně se nejedná o formuli rovnající se svým významem E=mc2.)

Komplikované boolské dotazy Je zřejmé, že pro praktické situace nevystačíme jen s formulemi pro dva termy, jaké jsme ukázali výše. Přechod na více termů není ale natolik komplikovaný. Pokud je vektor

d = (x1, x2, ... xt)

pak formule pro OR vypadá takto:

sim(X OR Y, d) = ( sum(i=1..t; xip) / t )(1/p)

Obdobně pro AND

sim(X AND Y, d) = 1 - ( sum(i=1..t; (1-xi)p) / t )(1/p)

Pro kombinované dotazy typu (X AND Y) OR Z použime nejprve vyčíslení zárorky formulemi pro AND, a tento výsledek uplatníme do OR formule jako odpovídající xi hodnotu. Svým způsobem se jedná o triviální substituční dosazení...

Shrnutí Zatím se nám povedlo představit dva základní reprezentanty modelů a určitý univerzální princip, který oba popisuje.

Z tohoto úvodu je patrné, že praktické implementace, které budeme dále popisovat, by měly zohledňovat:

rozdílnou práci se spojkami AND a OR v dotazu frekvenci termů nejen v samotném dokumentu, ale i v rámci všech textů (tf.idf

kalkulace) strukturu hypertextových odkazů (viz např. PageRank) a samozřejmě určité jazykové dovednosti (thesaurus, stemming), kterými jsme se

zatím vůbec nezabývali


Jehla v kupce sena: MnogoSearchVyhledávací stroj s SQL back-endem pod drobnohledem. Je každý volně šiřitelný software nevhodně implementovaný aneb co oči nevidí, srdce nepálí? Jak realizovat DoS proti tomuto stroji? Pro zkoumání všech rysů jsme využívali MnogoSearch, který obsahuje mnoho zajímavých vlastností jako indexování pomocí HTTP, HTTPS apod.

Se zachmuřenou duší chápu se klávesnice... Asi tak nějak bych mohl začít dnešní článek. Důvodem je rozpolcený stav mého já cítícího značnou sympatii k autorům MnogoSearch, kteří přinášejí něco nápomocného ostatním. Na druhou stranu mě ale kvalita takového přínosu nutí psát věci, za kterými některý čtenář uvidí opět spiknutí proti programátorům nebo moji zakomplexovanost. Doufejme, že tyto názory prezentované v předešlých diskuzích k mým článkům, postupně odezní. Cílem je jen pravdivě popsat kvalitu implementace a ukázat na možná vylepšení. A to vše bez obalu. Je pak pouze na čtenáři, co na svém serveru bude používat.

Pro zkoumání všech rysů jsem využíval verzi MnogoSearch 3.1.19. Ta obsahuje mnoho zajímavých vlastností jako indexování pomocí HTTP, HTTPS, poměrně solidní podporu vícejazyčných rozhraní, a v této třídě produktů poměrně překvapivě (ale rozhodně pozitivně) i stemmer (Stemmer je podčást lematizeru. Lematizer u slov určuje např. pád, vzor a další gramatické paramatry. Stemmer na základě těchto hodnot, které nemusí mít přímo přístupné, tvoří pouze kořen/stem slova. - pozn. edit.).

Stemmer Stemmer je modul, který ke každému slovu nalezne jeho základní tvar (stem, kořen slova). MnogoSearch stemuje všechny indexované dokumenty a stejně tak i dotazy. Proto se nemůže stát, že hledáte-li "kopytníka", nedostanete ve výsledku stránku obsahující např. tvar "kopytník".

Implementace stemmeru je zajištěna až třemi možnými způsoby. Zaprvé, napojením na démon, v jehož středu běží ispell. Za pomoci jeho suffixových bází dochází k zajištění požadované funkcionality.

Druhá a třetí možnost je použití konfiguračních souborů ke stemmingu, a to buď ve formě souborů nebo SQL databáze. Jejich formát je částečně vysvětlen v instalačním balíku a měl by odpovídat formátům pro ispell. Vlastní testování těchto dvou možností jsem ale neprováděl, protože jsem se zaměřoval především na výpočet podobnosti a kvalitu vyhodnocovacích algoritmů.

SQL back-end Datové srdce stroje bije rytmem SQL databáze, kdy jsou všechna data a některé operace


vyřizovány jen s využitím SQL. Takové řešení je vždy ošidné, protože většina profesionálních fulltextových strojů implementuje pouze algoritmy, které jsou v nejhorším případě lineární (tedy na zpracování báze o milionu dokumentech potřebujete zhruba milion operací stroje). SQL stroje naproti tomu standardně pracují převážně s algoritmy na bázi nlogn (za n si dosadte milion, abyste výsledek mohli porovnat s předchozím lineárním zpracováním). Čas nlogn může být ještě výrazně snížen, používá-li SQL stroj kvalitní optimalizace nebo paralelní zpracování, ale toho se nelze u volně šiřitelných databází vždy stoprocentně dovolávat.

Jisté řešení je v instruování SQL, aby tu a tam použila jiný algoritmus pro ukládání patřičné SQL tabulky (např. formou hashovací tabulky). Není mým cílem propagovat u nekomerčního MnogoSearch např. Oracle, ale postgreSQL by tyto možnosti nabízel, což v implementaci ve verzi 3.1.19 nedošlo naplnění.

Místo implementace korektního řešení se tak v dokumentaci dočtete, že MnogoSearch může být urychlen, pokud tabulky vyexportujete, externě setřídíte a znovu naimportujete do databáze. Je to pochopitelné, protože poté již zvolené algoritmy pracují nikoliv v nlogn, ale časech blížících se n+logn. Po chvíli jste ale opět tam, kde jste byli, protože při mnohých obnovách hodnot v tabulkách dojde k rozbití optimální struktury báze.

Tento nedostatek pramení ze skutečnosti, že hlavní implementací pro MnogoSearch je MySQL. Tím bohužel nejsou u kvalitnějších SQL strojů využity funkce, kterými MySQL nedisponuje. Zároveň s tím kód obsahuje určitá vylepšení pouze pro MySQL. Například, když je tento SQL stroj nedostupný, je v pětisekundových intervalech až třikrát zkoušeno spojení.

Vlastní SQL dotazy by zasloužily další inspekci. Obsahují takové operátory jako IN nebo LIKE, které při vyčíslovaní nemohou být nad velkými bázemi rychlé. Ale o vlastní práci fulltextu si podrobněji povíme ještě dále.

Jistým řešením je pak zvláštní mód, ve kterém není index ukládán do databáze, ale je držen na disku ve stylu squid-cache (MnogoSearch jej nabízí v režimu tzv. cache-mode). To má pochopitelně kladný vliv na možnost vytvářet rozsáhlejší index, ale na druhou stranu použitá implementace klade obrovské nároky na prostor.

Vyhodnocení podobnosti MnogoSearch neobsahuje žádnou metodu pro efektivní stanovování podobnosti. Jeho metodika je blízká pouhému získávání dat, nikoliv informací. V takové situaci se zdá implementace stemmeru naprosto zbytečným přepychem.

Stroj rozlišuje několik oblastí dokumentů, ve kterých vyhledává slova. Jsou jimi: slovo odkazu, tělo dokumentu, titulek, klíčové slovo a popisek. Vlastní hledání se ale omezuje pouze na hodnoty 0-1 (obsahuje, neobsahuje), takže o jakékoliv kalkulaci tf.idf si můžete nechat jen zdát. Váha je pak stanovena pouze za-OR-ováním hodnot pro jednotlivé oblasti, kterým ve výsledné váze přísluší vždy jeden bit. Výhoda spočívá v tom, že případným AND-ováním můžete vymaskovat jen ty oblasti textu, kde si přejete vyhledávat. Například pro vyhledávání pouze v titulcích vymaskujete na 0 všechny ostatní bity, které nepřísluší 0-1 váze pro titulek (tuto funkci zajišťuje WWW front-end).


To ale není na samotné implementaci to nejhorší. Mnohem hloupější je vlastní algoritmus vyhodnocení, který je po všech stránkách náročný a patří k velice nešťastně implementovaným částem MnogoSearch. Bohužel na nejdůležitějším místě.

Algoritmus pracuje tak, že si pro každé slovo dotazu nechá z SQL báze vrátit všechna ID URL, která připadají v úvahu. Všechny tyto parciální výsledky jsou v paměti quick-sortem zpracovány a dále upraveny. Chceme-li pouze výsledek, např. na páté stránce, jsou poté ID odpovídajících URL s využitím SQL dokompletována o popisku, URL, atd. Nejenže tento způsob tvorby výsledku značně přetěžuje server, ale zároveň je nadmíru neefektivní. Zneškodnit takový stroj pomocí DoS je snadné - stačí několik WWW prohlížečů a volba vhodných slov, která jsou velmi častá (pro každý separátní dotaz můžeme použít např. 10-15 takových slov). Protože by se mohlo jednat o návod k nekalé činnosti, nebudu téma dále rozvádět. Prozradím pouze, že v takovém případě značně přetížíte SQL stroj, protože bude nucen vracet velký seznam ID URL, a přetížíte i vlastní operační systém, neboť všechny parciální listiny ID (za každé slovo dotazu) budou zpracovávány v paměti.

Budete-li trpěliví, většina strojů s mnoha tisíci zaindexovanými dokumenty se záhy poroučí do věčných lovišť. Je pravda, že s novými CPU nad 1 GHz a ultra disky s přenosy nad 20 MB/s musíte použít v dotazech slova s pravostrannou expanzí, protože takové stroje zvládnou větší nápory. Na druhou stranu ale algoritmy MnogoSearch nepracují v lineárních časech (viz. kritika výše), a proto nestačí pro zdvojnásobení výkonu koupit dvakrát silnější počítač (spíše 3-4 krát silnější). Tím je pozice útočníka značně zjednodušena.

Teoretické pozadí Výpočet podobnosti nevychází ani z kalkulace tf.idf ani z počtu hledaných slov v dokumentu nebo celé bázi. Teoreticky je MnogoSearch ve své podstatě utilita grep s možností stemmingu a vyhledáváním frází. Z tohoto důvodu lze inkriminovaný stroj doporučit pouze jako rychlé řešení v situaci, kdy by pokryl svými vlastnostmi prostředí, v němž jej hodláme nasadit.

Závěr Je sporné, zda lze úspěšně použít MnogoSearch pro kvalitní vyhledávání nebo pro vyhledávání v bázi více než 5.000 dokumentů. V každém případě bych ale doporučoval využít režim cache-mode, který do jisté míry sníží nebezpečí plynoucí z DoS útoků. Chcete-li využít SQL back-endu a rozumně elimitovat DoS, pak doporučuji použít MySQL, který je autory využíván jako primární báze pro implementaci. Navíc ale použijte spojení s RAID podporou (využívejte pak CREATE statement-y s atributy RAID_TYPE, CHUNKS, CHUNKSIZE) a dostatkem operační paměti.

Celkově lze MnogoSearch hodnotit jako stroj s mnoha zajímavými možnostmi, mezi které řadím snadnou konfiguraci, dále pak stemming, vícejazyčnou podporu atd. Bohužel ale vlastní implementace zatím nesplňuje nároky kladené na profesionální řešení.


Jehla v kupce sena: ASPSeekASPSeek patří do kategorie fulltextových strojů s ukládáním dat do SQL databáze. V současné době je využíván na serveru WebSeek.cz, kde zajišťuje vyhledávací služby v doméně .cz. Jedná se o nejlepší bezplatný stroj s implementací P-rank a vah nad termy. Ani tento server však nevydržel jednoduché dotazy a složil se.


Celý softwarový balík obsahuje robota, vyhledávací server a pochopitelně i webové rozhraní na bázi CGI. Na domovské stránce projektu ASPSeek (vytvářeno společností SWsoft) se mimojiné dozvíte, že stroj podporuje indexování několika milionů stránek, vyhledávání frází, využívání pravostranné expanze (populární hvězdička, wildcards) a v neposlední řadě i dotazy v tzv. boolském zápisu.

Z vlastností, které jsou zajímavé pro integrování produktu do dalších projektů (pozor, ASPSeek je vytvářen pod nepříjemným GNU GPL), jmenujme podporu Unicode a stemming (pro češtinu bohužel jen na bázi ispell). Formátování výstupu je na poměrně vysoké úrovni a zahrnuje takové možnosti jako shlukování shodných zásahů do jednoho "koncentrovaného" nebo vláknovou strukturu výsledků, případně zobrazování cachovaných oindexovaných stránek.

Rychlost Přestože je stroj realizován v C/C++, tkví hlavní nedostatky ve způsobu uložení dat. To budu dokumentovat později demonstrací toho, jak je možné stroj napadnout tak, aby neodpovídal buď vůbec, nebo aby se jeho odpovědi počítaly i několik desítek sekund. Současně je však nutné podotknout, že jednou vypočítané výsledky jsou poměrně kvalitně cachovány, takže některé dotazy při častém opakování vykazují vysokou rychlost. K tomu, aby se cachování neuplatnilo, však stačí sebemenší modifikace dotazu.

Například když na hlavním serveru vyhledáváte výraz pattern*, tak se výsledek poprvé počítá 23 sekund. To rozhodně nesvědčí o kvalitě použitých algoritmů. Dle mého názoru se dotaz rozkládá na pattern OR patterns, a vyhledávání pouhých dvou slov nad bází šesti milionů dokumentů by nemělo trvat takovou dobu. Pokud ale týž dotaz vyzkoušíte znovu, výpočet trvá už jen několik desetin sekundy.

Pokračujme ale dále. Je cachovací algoritmus natolik dobrý, že by si pamatoval předchozí dotazy a využil je ke konstrukci dotazů nových? Zkusme patter*. Tento dotaz se rozkládá na pattern* OR (...něco...). Stroj by mohl využít předchozí výpočet, protože právě v tomto případě ono (...něco...) bude buď prázdné, nebo velmi malé co do počtu termů. Překvapení se nedočkáte, stroj tento dotaz počítá i bezprostředně po předchozím dotazu celých 31 sekund.

Webové stránky, které nejsou dostupné do šesti sekund, jsou pro většinu uživatelů tzv. "mrtvé". ASPSeek poměrně nenáročné dotazy na pilotní implementaci zodpovídá 20-30 sekund. Závěr přenechávám čtenáři.

Jak to pracuje Jak již bylo uvedeno, stroj pracuje s SQL v zádech. Aby zvládal větší zátěže než například UdmSearch (nyní MnogoSearch), jsou slova a jejich výskyty rozloženy do více SQL tabulek. To je pochopitelně do určité míry výhodné (počet vět v jedné tabulce ovlivňuje rychlost), ale při rozkladu na 16 tabulek se nezdá, že by šlo o optimum pro několik milionů stránek.

Jako backend je možné využít MySQL nebo Oracle. Zároveň ale upozorňuji, že kód ASPSeeku neobsahuje žádné výrazné optimalizace, takže se stejně jako v případě UdmSearch můžeme dočkat jen tabulek v režii B-stromů. To je současně pozitivní zpráva, protože to znamená, že lze stroj ještě výrazně urychlit.

Určité části ASPseeku pocházejí ještě z projektu UdmSearch. V čem se ale liší, je vyhodnocování podobnosti. S odvoláním na Kira (jeden z vývojářů) obsahuje kód i

http://www.aspseek.com/

implementaci techniky PageRank, kterou jsem popisoval v některém z předchozích dílů. Kromě toho zahrnuje i vyhodnocování na základě vah termů. Přesto se nejedná o klasické implementace, ale o modifikace těchto technik. Přes otevřenost a výbornou čitelnost kódu se mi bohužel nepodařilo zjistit konkrétní implementační techniku, a ani nebylo možné získat patřičnou dokumentaci.

Přesto mohu potvrdit, že stroj techniky na výše uvedené bázi opravdu implementuje a pokračuje v základní podpoře sémantiky, jak ji započal UdmSearch. Z výsledků dotazů je pak patrné, že po této stránce je vskutku schopen kvalitně zpracovat báze o velikosti několik milionů dokumentů.

Jazykové dovednosti ASPseek využívá při stemmingu program ispell, který stejně jako v případě UdmSearch trpí určitými nemocemi, a to zejména v případě češtiny.

Jedná se o klasický problém s diakritikou, kdy stroj mylně chápe některá podstatná jména jako slovesa (např. stůl oproti stul). V zásadě lze ale jazykové schopnosti při určité obezřetnosti využít k získávání kvalitnějších odpovědí, než nabízejí velké systémy, které stemming neimplementují.

Každý klad má určité negativní aspekty a těmi jsou v případě ASPseek především degradace rychlosti a výkonu při odbavování souběžně řešených dotazů.

Nasazení, závěr Naprosto ideální je ASPseek pro menší báze (řádově několik set tisíc dokumentů), kde se již začnou projevovat kvalitní techniky jako je P-rank a váhy nad termy, ale ještě se neprojeví rychlostně-kapacitní problémy.

Rozhodnete-li se indexovat opravdu velké báze o rozsahu sedmi milionů dokumentů, jako to činí např. WebSeek.cz, znemožněte kladení pokročilých boolských dotazů - zejména pokud obsahují spojku OR. Dále nezapomeňte omezit nebo úplně zakázat pravostrannou expanzi pomocí hvězdičky. V neposlední řadě raději nepoužívejte stemming.

Nebudete-li se držet těchto pokynů, může útočník naprosto vyřadit váš server. Kromě dotazů, které jsme uplatnili vůči hlavnímu stroji, je na WebSeek.cz velice účinný dotaz web*. Nejen, že se nedočkáte výsledku, ale zároveň zpomalíte celý server. Použijete-li několik browserů, zcela určitě daný stroj zadřete (tohle si prosím vyzkoušejte výhradně na vlastním systému, nikoliv na WebSeek.cz).

Kdo očekává porovnání s UdmSearch (MnogoSearch), nebude zklamán.

MnogoSearch má širší podporu databází a operačních systémů. Má i rozvinutější základnu uživatelů, takže případné problémy můžete úspěšně konzultovat. Jistou výhodou je i to, že frontend je i pro PHP. Zřejmými nevýhodami - které jsem ostatně kritizoval minule - jsou: nevhodné algoritmy, výpočet podobnosti a celková stabilita.

ASPSeek využívá solidních postupů na výpočet podobnosti, je rychlejší a dovoluje podporu Unicode. Mezi jeho nevýhody patří menší uživatelská základna a náročnější modifikace související s webovým rozhraním.

http://www.webseek.cz/


Šrotujeme textDosud jsme se zabývali pouze vlastní indexací textů. Ty jsme chápali jako dokumenty obsahující určitý počet rozdílných termů. Ovšem způsoby, jak si tyto termy vyrobit, jsou značně komplikované, přestože by se mohlo zdát, že jde o nejjednodušší fázi celé operace zvané fulltextové vyhledávání. Není tomu tak.

Dosud jsme se zabývali pouze vlastní indexací textů. Ty jsme chápali jako dokumenty obsahující určitý počet rozdílných termů. Ovšem způsoby, jak si tyto termy vyrobit, jsou značně komplikované, přestože by se mohlo zdát, že jde o nejjednodušší fázi celé operace zvané fulltextové vyhledávání. Není tomu tak, a některé chyby mohou naopak posílit nekvalitní chování jádra vyhledávače.

V tomto díle projdeme postupně všechny jednotlivé kroky, jak jdou obyčejně za sebou. Budeme se snažit především o popis základní kostry datového toku strojem, abychom se k jednotlivým částem mohli v budoucnu vracet ve specializovaných kapitolách.

Lexikální analýza První, co se s dokumentem musí stát, je jeho rozbor na úseky, které jsou buď čísla nebo slova, případně i oddělovače či speciální znaky. Tyto úseky pak tvoří vstupní jednotky - kandidáty na skutečné termy (slova, nad nimiž budeme opravdu stavět index).

Nejjednodušší, a zřejmě i ne příliš ideální způsob, je převod všech znaků netvořících slova na mezery. Poté již můžeme vlastní slova textu číst naprosto bez problémů. Je zde ovšem malý problém v podobě rozdělovačů nebo oddělovačů, které význam daných slov dosti podstatně mění.

Další obrovskou komplikací jsou čísla. Zvažte sami, zda je lepší spojení "480 př.n.l." rozčlenit na čtyři slova nebo je pojmout jako slovo jedno? Negativum prvního způsobu řešení můžeme demonstrovat dotazem "480 piv". Myslím, že takového uživatele nepotěší na výstupu dokumenty z historie.

Stejná potíž může nastat u telefonních čísel (webové stránky s telefonními seznamy), kde je navíc problém s rozdílným zápisem. Taková čísla lze zapsat jako 123-45-678 nebo 12-34-56-78 či 12345678.

Jedno prosté řešení by mohlo být vypuštění všech teček a pomlček. Ale indexujeme-li celý Internet, často se do stránek zamíchá i kus programového kódu. Co si počít například s proměnnými "o.id" a "oid"? Tím se nám celá věc začíná výrazně komplikovat, protože tečku bychom mohli vypustit, plní-li funkci zkrácení ("př.n.l"), zatímco v jiném případě bychom ji nahradili mezerou (tečka za větou).

Eliminace stop slov Jakmile máme kandidáty na slova, můžeme přikročit k jednoduché eliminaci nevýznamových slov. V češtině se jedná například o spojky, předložky atp. Nemáme-li seznam stop slov dostupný, můžeme přistoupit k jejich eliminaci na základě četnosti výskytu v dokumentech. Má-li slovo svůj idf cca 0,2 (vyskytuje se zhruba v 80 procentech dokumentů), je možné ho


bez problémů ignorovat. Důvodem je to, že tak frekventované slovo neposkytuje dostatečnou odlišovací schopnost ve výsledkové listině.

Obrovským přínosem je, že se tak zmenšuje velikost později vytvářeného indexu. Toto zmenšení může nezřídka dosáhnout 40-50 procent původní velikosti. Ve webové praxi se ale eliminuje méně často, protože by mohlo docházet ke snižování hodnot úplnosti dotazů.

Stemming, převod na kořenové tvary V průběhu našeho seriálu jsme se již mnohokrát zmiňovali o tajemném stemmingu. Nejde o nijak složitou operaci. Zjednodušeně ji můžeme chápat jako proces, při kterém jsou slova převáděna na svůj základní tvar. Není ani natolik podstatné, zda jsou převedena na tvar gramaticky správný, ale spíš o to, aby všechny tvary daného slova byly převedeny na něco, co za tento kořenový tvar prohlásíme (nebo můžeme se zavřenýma očima prohlásit).

Existuje několik metod, které popsanou operaci zajišťují. Mezi velice náročný můžeme řadit tabulkový model, při kterém čteme kořenový tvar z tabulky všech dvojic slovo a jeho kořen. Ten je značně nepopulární, přestože je na známých slovech nejpřesnější. Důvodem je paměťová náročnost.

Mnohem jednodušší a populárnější metody jsou založené na odstraňování přípon. O předpony se v tuto chvíli nebudeme starat, protože je lze téměř v každém jazyce spolehlivě odhalit a zpracovat, nehledě na to, že nepředstavují takový fundamentální problém (předpon bývá zpravidla méně než přípon).

Nejznámější metodou, která odstraňuje přípony, je bezesporu Porterův algoritmus. Ten byl původně realizován pouze pro angličtinu, v současné době existuje již v komplexnější verzi pro mnoho evropských jazyků (viz. projekt Snowball na www.sourceforge.org).

Thesaurus Posledním hráčem ve hře může být i modul thesauru. Ten obsluhuje bázi synonym daných slov a v rámci indexovací fáze může vymezit slova vhodná k indexování. Z velkých vyhledávačů implementoval thesaurové praktiky například Yahoo.

Termy thesauru mohou být buď jednotlivá slova, slovní spojení nebo celé fráze. Největší zastoupení má pochopitelně první případ.

Konstrukci thesauru se budeme věnovat v následující zvláštní kapitole, která bude zaměřena na způsoby modifikace uživatelských dotazů. Popíšeme i dvě fundamentální konstrukční techniky a jejich kompletní algoritmy včetně vzorců.

Výroba indexu Na základě zvoleného modelu můžeme nad připravenými termy konstruovat vlastní index. Téměř všechny současné implementace vyhledávacích strojů používají techniku invertovaných seznamů. Jak něco takového vypadá?

Pro každý term indexu je vytvořen seznam jeho výskytů. V nejjednodušším případě je tento seznam tvořen pouze identifikátory (čísly) dokumentů, ve kterých je dané slovo obsaženo. Spolu s číslem dokumentu mohou být ukládány i další hodnoty, např. v případě vektorového modelu (viz. Architektury a modely vyhledávacích strojů) je ukládána zároveň hodnota w nebo alespoň četnost výskytu slova.


http://www.sourceforge.org/

Invertovaný seznam je pak vzestupně seřazen podle čísel dokumentů. To není komplikované zajistit, protože stačí nově příchozím dokumentům přiřazovat stále vyšší a vyšší čísla. Hodnoty, které pak o nich ukládáme do jednotlivých invertovaných seznamů, jednoduše připisujeme vždy nakonec. Tím zabezpečíme požadované uspořádání, které je potřeba pro algoritmy řešící uživatelské dotazy. Tyto algoritmy čtou seznamy vždy sekvenčně (pozn.: ty skutečně nejrychlejší uplatňují i skoky).

Někdy bývá vhodné neukládat přímo identifikátory dokumentů, ale tzv. rozdíly. Tak se dostaneme k prostorově méně náročnému rozdílovému invertovanému seznamu, který si představíme nejlépe na příkladu.

Příklad: Máme invertovaný seznam pro slovo s, kde identifikátory jednotlivých dokumentů s výskytem slova s jsou: id1, id2, id3 atd.

s: id1 id2 id3 id4 id5 ...

jeho rozdílová verze vypadá takto (všechny rozdíly jsou díky vzestupnému uspořádání vždy kladné):

s: id1 id2-id1 id3-id2 id4-id3 id5-id4 ...

Výhoda plyne z toho, že menší hodnoty vzniklé ukládáním rozdílu můžeme reprezentovat kratší skupinou bytů, respektive bitů.

Závěr V tomto díle jsme načrtli základní kostru průchodu dat fulltextovým strojem. Některé jeho části jsme popsali v předcházejících kapitolách a zbývající kamínky mozaiky začneme popisovat následujícími díly.


Jehla v kupce sena: ThesaurusV minulých dílech jsme na Lupě psali o situacích, kdy vyhledávač musí překonat problém tzv. máloslovných dotazů, které jsou do něj vkládány. Z těch je totiž velice obtížné zjistit, na co se uživatel vlastně ptá. V tomto článku si popíšeme jednu ze základních technik, jak si stroj může dotaz upravit a "domyslet".

Způsob, jakým si obohatíme dotaz, je založen na principu thesauru. Strukturu thesauru jsme si představili v minulém díle, nyní se zaměříme především na jeho automatické vybudování.

Náš výchozí stav je znalost všech dokumentů a indexovaných slov (termů), naším cílem je umět přidat (automaticky) do uživatelského dotazu slova, která zajistí, že výsledek vrácený strojem bude kvalitnější. V případě dnes prezentované metody se jedná o zkvalitnění v řádu až jedné čtvrtiny (20-25 procent) nad nejméně třemi rozdílnými textovými bázemi. Kromě toho ukážeme, jak nastavit váhy (důležitost) jednotlivých slov nově vytvořeného dotazu.

Zaveďme si nejprve několik označení. Jak jste si již zajisté zvykli, jako N nazýváme počet dokumentů, které držíme v indexu. Četnost výskytu i-tého termu (ki) v j-tém dokumentu jsme



označovali fi,j. Počet všech termů nazýváme jako t, a množství unikátních indexovaných termů v dokumentu j jako tj. Podobně jako jsme definovali inverzní frekvenci dokumentu, nadefinujeme i inverzní frekvenci termu v j-tém dokumentu:

itfj=log(t/tj).

Dále budeme postupovat analogicky k vektorovému modelu, který byl již rozebrán v předcházejících kapitolách. Vstupním vektorem do našich úvah bude vektor přidružený ke každému i-tému termu: (wi,1,wi,2,...wi,N).

Narozdíl od běžného vektorového modelu je pro výpočet jeho vah ustálena formule:

wi,j = disperj . itfj / sqrt( sum( p=1..N; disperp2 . itfj

2 ) )

kde

disperj = 1/2 ( 1+fi,j/max(j)fi,j )

Podobný vzorec můžete použít i pro stanovování vah term-dokument v jádru vektorového modelu. Její plus je v tom, že lépe využije a rozprostře hodnoty do celého povoleného intervalu. Při tom zároveň silně zvýrazní ty nulové (symbolizující neexistující výskyt).

Podobnost (zde se ale uživá pojem korelace) dvou termů stanovujeme - jak je ostatně zvykem - ve vektorových modelech, prostým skalárním součinem odpovídajících vektorů (viz. výše).

Pro termy ki a kj je korelace:

ci,j = sum( all d; wi,d . wj,d )

Další postup je následovný. Na vstup jsme dostali dotaz, který obsahuje termy q1, q2, ... qz s váhami w1,q, w2,q, ... wz,q. Pro výpočet těchto vah užijeme vztah, který jsme představili dnes, nebo i některý z dříve uvedených.

Poté zjistíme podobnost, která v základu odpovídá korelaci, a to vůči všem termům.

sim( q, kj ) = sum( all ti; wi,q . ci,j )

Dostali jsme se do stavu, kdy pro uživatelský dotaz můžeme získat TOP-X termů v závislosti na jejich vysoké podobnosti. Ty do původního dotazu přidáme. Kolik si stanovíme tajemné X, je závislé na síle hardware, kterým disponujeme.

Zbývá již jen nastavit váhu nově přidaným termům dotazu.

wi,Q = sim( q, ki ) / sum( all j; wj,q)

Formální upřesnění: Q je nově utvářený dotaz.

Závěr Technika automaticky spravovaného thesauru není nová. Je výhodné ji použít, pokud

vytváříte jeden stroj pro nasazení s více indexy (indexovaní technických, pravních ad. dokumentů). Její použití pro velký a globální internetový index je trošičku sporné.

Protože se v našem seriálu postupně posouváme z teoretické oblasti do praktické, dovolte následující poznámku. Výpočet korelace je časově velmi náročný. Jako takový se proto nerealizuje pokaždé s příchodem nového dotazu do systému, ale v časových intervalech (např. každý den nebo po zaindexovaní dalších 10.000 dokumentů atp.). V těch spočteme najednou všechny korelační hodnoty. Pro připomenutí, ve středně velkém systému není neobvyklé indexovat cca 50.000 termů (po stemmingu), a velikost korelační matice může být proto i paměťově nepříjemně náročná. V takových případech bývá vhodné neuvažovat pro thesaurus všechny dostupné termy, což však může mít zase negativní vliv na slibované zkvalitnění odpovědí.

Platí neochvějná pravda, že při zpracování obrovských bází dochází k vyhlazení potřebných statistických hodnot. Pokud byste chtěli uvedenou metodu použít, bylo by zřejmě vhodné využít uživatelských profilů a sběrů zpětné vazby. Tyto techniky, stejně jako další možnou techniku výroby thesauru, představíme v následujících kapitolách.


Jehla v kupce sena: Sběr zpětné vazbyV předcházejících dílech našeho seriálu, které se ještě zabývaly recenzemi českých vyhledávacích strojů, jsme se zmiňovali o jejich možných nedostatcích a následně představili nejeden model, jenž může napomoci zkvalitnění samotného procesu vyhledávání. Dnes se zastavíme u techniky sběru zpětné vazby.

Dalším úspěšným modelem, který nebývá složité implementovat, je technika modifikující obecný výsledek vyhledávání na základě sběru zpětné vazby. V praxi to vypadá tak, že první dotaz slouží jako základní "nástřel". Z jeho výsledkové listiny uživatel dle své volby určí relevantní zásahy. V dalším kroku, kdy se uživatel snaží o zkvalitnění dotazu, stroj zohlední tyto vybrané zásahy a výsledek sám upraví.

Praxe Dobrým příkladem, jak takový proces zajistit, jsou metavyhledávače. Ty na základě sběru zpětné vazby určují, ze kterého vyhledávacího stroje mají být výsledky "relevantnější" (viz. technika SavvySearch). Ve stávajících velkých fulltextech podobný příklad nenajdeme. Důvodem není ani tak technická obtížnost, jako spíše schopnost vysvětlit jejich bežným návštěvníkům, k čemu je sběr zpětné vazby dobrý a jak jej efektivně využívat při vyhledávání.

Proto tímto řešením disponují ponejvíce proprietární intranety. V praxi to pak vypadá tak, že odkazy na jednotlivé zásahy nejsou směrovány na skutečné zdroje dokumentů (např. http://tady.jsem.cz/zasah.html), ale přes redirektor (tj. např. http://nas.vyhledavac.cz/ redir/http://tady.jsem.cz/zasah.html).

Uživatel pak kliká na odkaz, který prochází redirektorem. Ten kromě přesměrování zajistí, aby se vyhledávač dozvěděl, že jste tento dokument považovali za relevantní (např. nastaví cookie pro konkrétní dotaz nebo pro celý uživatelský profil).


Zapracování do stroje V tuto chvíli se dostáváme k hranicím některých modelů. Zatímco zapracování zpětné vazby v boolském modelu (kupř. WebFast) je značně náročné, u vektorových modelů nejde o nijak složitou operaci. Pozn.: ryze boolskými modely se nadále nebudeme zabývat, protože jsou zastaralé a neumožňují de facto řádné vyhledávání informací, ale pouze hrubých dat. V jejich případě jsme odkázáni jen na zkvalitnění vyplývající z doprovodných technik (thesaurus, P-rank atd.).

Pro osvěžení připoměňme princip vektorového modelu. Všechny dokumenty i dotazy jsou převedeny na vektor. Čím jsou tyto vektory blíže sobě (mají totožný směr v prostoru), tím si jsou sobě podobnější a totéž platí o objektech, které zastupují.

Zpětná vazba, kterou jsme získali, s sebou nese informaci o tom, které vektory dokumentů jsou dle uživatele blíže jeho dotazu. Podle hesla, chce to - má to, uděláme takovou modifikaci všech vektorů, tj. zvolené dokumenty (jejich vektory) budou vskutku (vektoru) dotazu co nejblíže.

Takovou změnu realizujeme tak, že každý uživatelský dotaz na základě získané zpětné vazby změníme - posuneme, aby výsledek odpovídal tomu, co si uživatel přeje. Dále pak již při vyhodnocování postupujeme klasicky, takže celá operace je vskutku jednoduchá.

Jak to pracuje Nejprve začneme zmínkou o ideální, ale nerealizovatelné situaci. Pokud máme zadání, které rozdělí všechny naše dokumenty na relevantní (R) a nerelevantní (F), pak by ideální dotaz měl být vektor ležící v "těžišti" vektorů. Toto těžiště se počítá jako:

qoptimalni = sum( all r of R; r ) / #R - sum( all f of F; f ) / #F

Protože nikdy dopředu nevíme, které dokumenty jsou relevantní, nemodifikujeme uživatelský dotaz na skutečně "ideální" qoptimalni hned v prvním kroku. Ovšem po několika pokusech jsme schopni se k tomuto optimálnímu vektoru dostatečně přiblížit.

V dřívějších dobách existovalo několik formulí, které závodily v tom, na kolik kroků se přiblíží k optimálnímu tvaru dotazu. Dnes už tato rivalita pominula a začíná se používat pouze základní formule. Ta obsahuje několik parametrů, které si buď může nastavit sám uživatel, nebo tvůrce vyhledávače.

Jednotlivé parametry určují, nakolik je stroj konzervativní, tj. zda více věří sám sobě nebo sběru zpětné vazby. Stejně tak, jestli je zpětná vazba důvěryhodnější pro sběr pozitivní nebo negativní vazby, tj. je-li uživatel schopen lépe vymezit opravdu relevantní nebo nerelevantní dokumenty z výsledků, které mu stroj postupně předkládá.

Označme si původní dotaz jako qu. Dokumenty, jež uživatel vymezil coby relevantní Dr a nerelevantní jako Df. Parametry a, b, c. Výsledný dotaz, kterým pro vlastní vyhodnocení nahrazujeme qu označíme jako qm. Formule pak vypadá takto:

qm = a qu + sum( all r of Dr; b r ) / #Dr - sum( all f of Df; c f ) / #Df

Závěr Dnes jsme se snažili přiblížit další metodu, která modifikuje dotaz na jiný, jenž vrací

kvalitnější výsledek. Toto zkvalitnění je ale především subjektivní, nikoliv skutečně objektivní - závisí jen na autorovi stroje, zda po takovém řešení sáhne. Dobrou zprávou každopádně je, že jej lze bez problémů dopsat i do již existujícího vyhledávače. Další výhodou je skutečnost, že tato technika je dosti variabilní a dává tak prostor experimentům. Rozhodně ji lze doporučit pro menší báze, ale vlastní stanovení parametrů (a, b, c) je potřeba vyladit na konkrétní dokumenty - a popravdě i uživatele...


Jehla v kupce sena: fulltextový stroj na 72 řádcíchV dnešním pokračování odbouráme poslední mýty o tom, jak jsou fulltexty komplikované. Uvedeme kompletní zdrojové texty stroje, který napíšeme přímo ve skriptovacím jazyce a to vše na 72 řádcích. Tento fulltext můžeme rychlostí i kvalitou odpovědí řadit někam mezi Kompas (dlouhá léta využívaný na Seznam.cz) a Webfast (Centrum.cz).

Pro jednoduchost jsme se rozhodli nekomplikovat fulltext lemmatizací, ačkoliv by její přidání neprodloužilo zdrojový text ani o jeden řádek.

Naším dnešním cílem je poodkrýt ono podivné tajemno, které obestírá střeva stroje. Proto jsme jej neopatřovali dokonalým crawlerem (díky čemuž jsme pak výsledné zdrojové texty mohli zkrátit o dalších sedm řádků kódu). Stejně jsme naložili s WWW rozhraním. Fulltext disponuje pouze příkazovým řádkem, od něhož není daleko k CGI.

Indexujeme... Náš indexátor bude indexovat určené HTML stránky. Ty jsou v našem případě umístěny na lokálním datovém svazku, ale nic nebrání tomu, aby do procesu vstupovala i konkrétní URL. Výsledný seznam bude posléze uložen v podadresáři index, kam umístíme invertované výčty pro termy. Stejně tak informační data o jednotlivých dokumentech - v naší implementaci pouze název souboru, případně URL.

Zdrojový kód#!/bin/sh

# ID-cko indexovane strankyIDPG=1000

mkdir index

for i in /usr/share/doc/xfig/html/*.htmldo COUNT=0 PREVWORD="tohle slovo urcite NeDoStAnEmE"

echo "Indexujeme $i"

lynx -dump $i | tr '[:upper:]' '[:lower:]' | tr -cs '[:alnum:]' '[n*]' | sort | while read WORD do


if [ "$WORD" == "$PREVWORD" ]then COUNT=èxpr $COUNT + 1èlse if [ "$COUNT" != "0" ] then

echo $IDPG $COUNT >>index/$PREVWORD

fi COUNT=1 PREVWORD="$WORD"fi

done echo $i >>index/.$IDPG IDPG=èxpr $IDPG + 1`done

Indexátor postupně převádí HTML dokumenty na obyčejné texty bez značek. Následně se zbavuje problému s velkými písmeny, protože je mění na písmena malá.

Tím jsme text převedli na tok slov, která jsou osamostatněna oddělovači řádků, neboli máme jedno slovo na jednom řádku. Pozn.: V tuto chvíli si můžeme dovolit nasadit ispell či jiný prostředek pro redukci termů na základní tvary, příp. provést eliminaci stopslov.

Zbývající kód je naprosto rutinní spočtení množství výskytů jednotlivých termů. Do invertovaného seznamu daného slova zaneseme jeho frekvenci a identifikátor dokumentu.

Nakonec uložíme informační data o konkrétním textu do souboru index/.(identifikátor_dokumentu).

Pozor! Pokud se budete snažit o inkrementální indexování, je potřeba zajistit, aby vám neustále rostly identifikátory (čísla) dokumentů. Blíže viz. v předchozí kapitole, kde jsme se zmiňovali o invertovaných seznamech a jejich formátu.

Vyhledáváme... Nejprve si ukážeme nejsnadnější příklad, kdy dotaz tvoří jen jedno slovo (term).


WORD=$1

ILIST=index/$WORD

if [ ! -f $ILIST ]then echo "No match" exit 1fi

sort -k 2 -t ' ' -n -r $ILIST | while read ID FQdo echo -n "($FQ) " cat index/.$IDdone

Vyhledávání jednoho slova je snadné. Nejdříve zjistíme, kde má uloženo svůj invertovaný seznam. Potom si tento seznam necháme sestupně seřadit podle druhé hodnoty - kam jsme zapisovali frekvenci slova - a vypíšeme výsledek. Místo nic neříkajících identifikátorů dáváme na výstup popisku, kterou v našem případě tvoří jen lokace dokumentu.

Ukázka[CTO@yahoo fulltext]$ ./search1.sh angle(28) /usr/share/doc/xfig/html/attributes.html(14) /usr/share/doc/xfig/html/drawing.html(12) /usr/share/doc/xfig/html/editing.html(6) /usr/share/doc/xfig/html/contents.html(4) /usr/share/doc/xfig/html/fig-format.html(3) /usr/share/doc/xfig/html/printing.html(1) /usr/share/doc/xfig/html/bugs_fixed.html

Při vyhledávání většího počtu slov je situace o trochu komplikovanější. Pro srozumitelnost zdrojového textu se omezíme pouze na dotazy typu A AND B. V opačném případě bychom využili pravděpodobně techniku samogenerování kódu a mohlo by se stát, že bychom tak mnohým čtenářům utekli do informační mlhy... Pozn.: Úpravu pro dotazy typu A OR B si můžete zkusit sami, je velice snadná.


WORD1=$1WORD2=$2

ILIST1=index/$WORD1ILIST2=index/$WORD2

if [ ! -f $ILIST1 -o ! -f $ILIST2 ]then echo "No match" exit 1fi

join -t ' ' $ILIST1 $ILIST2 | while read ID FQ1 FQ2do echo $ID èxpr $FQ1 + $FQ2`done | sort -k 2 -t ' ' -n -r | while read ID FQdo echo -n "($FQ) " cat index/.$ID

done

Pro vyhodnocování dotazu A AND B si vezmeme příslušné invertované seznamy a spojíme je přes identifikátory dokumentů. Tím vlastně vznikne index, který obsahuje identifikátory všech dokumentů, ve kterých jsou oba termy zastoupeny. Jako doplňkový parametr ponecháme součet frekvencí slov.

Takové sčítaní není pochopitelně kvalitní, ale pro náš fulltext bude zajisté postačovat. Kdybychom si chtěli o něco málo pomoci, mohli bychom použít výpočet ve stylu Q-hodnoty (Webfast.cz). Pro lepší výsledky je pochopitelně nutné sáhnout po některé z formulí, jež jsme prezentovali dříve. V tuto chvíli vystačíme se součtem, abychom zbytečně stroj nekomplikovali.

Ukázka[CTO@yahoo fulltext]$ ./search2.sh draw xfig(245) /usr/share/doc/xfig/html/drawing.html(161) /usr/share/doc/xfig/html/editing.html(153) /usr/share/doc/xfig/html/options.html(142) /usr/share/doc/xfig/html/attributes.html(95) /usr/share/doc/xfig/html/introduction.html(88) /usr/share/doc/xfig/html/printing.html(79) /usr/share/doc/xfig/html/installation.html(62) /usr/share/doc/xfig/html/global_settings.html

Závěr V dnešním díle jsme se podívali na fundamenty fulltextů a ukázali, jak je možné realizovat provozuschopný stroj. Přestože se to zdá nemožné, dokáže po rychlostní stránce (v malých bázích) bez problémů vzdorovat volně šířeným fulltextům s SQL základnou.

Doba napsání výše uvedených zdrojových textů se měří na minuty. Čím se tedy primitivní stroj liší od profesionálního fulltextu, který mnohdy vzniká několik měsíců? Stručně řečeno, dokáže nalézt onu pověstnou jehlu v kupce sena. To si ovšem ukážeme až na příkladech v dalším díle.

http://www.jakpsatweb.cz

http://www.jakpsatweb.cz/

Date post:	07-Jan-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

lcerna/vyhledavace1.doc · Web viewNejjednodušší, co můžeme posuzovat, je počet odkazů,...

Documents