Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

Post on 26-Jun-2015

444 views 2 download

description

Jaké technologie pohání vyhledávání? Jaké překážky vás potkají při fulltextovém hledání v internetu? Co obnáší budování velké a komplexní věci, jako je Vyhledávač? Odpoledne se Seznam.cz pro začínající firmy v TechSquare 8.10.2012

transcript

Jak funguje Seznam.cz Vyhledávání Tomáš Hlucháň

O čem to bude?

Fulltextové hledání

• Získání dokumentů

• Analýza a tvorba hledací databáze

• Vyhledání a prezentace výsledků

• Zpětná vazba

Fulltextové hledání

• Co je to “Index”

• Tvorba

• Údržba

• Hledání

Fulltextové hledání v internetu

Jak pracuje fulltextové hledání

WWW DOKUMENTY INDEX

?

Získání a uložení dokumentů

• Kolik dokumentů chceme mít?

• Jak efektivně stahovat dokumenty?

• Kam je uložíme?

• Jak často je budeme obnovovat?

Získání a uložení dokumentů

WWW

DOKUMENTY

DOWNLOADER

PLÁNOVAČ

ANALÝZA

Indexace

DOKUMENTY

FEEDER

INDEX

INDEXER

MERGE

INDEX

INDEXER

MERGE

Indexy pod lupou

• Složení indexu– seznam dokumentů a jejich atributy– seznam dokumentů pro každé slovo– extrakt textu dokumentů pro úryvky

• Druhy indexů– complete– daily– fresh

Hledání a prezentace výsledků

• zpracování uživatelského dotazu

• distribuované hledání

• prezentace výsledků

Hledání a prezentace výsledků

?Příprava dotazu

Hledání

INDEX

Pochopení dotazu

• doplnění diakritiky

• doplnění skloňovaných tvarů slov

• detekce čísel

• generování podobných slov

• desambiguace

• detekce zkratek

• ....

Strom dotazusip tmobile babybox weisser universita

Hledání - distribuované hledání

Příprava dotazu

A

A A

I

H

I

H

I

H

I

H

Hledání - prezentace výsledku

• seřazení

• generování úryvku (snippet)

• náhled

• zpětná vazba

Seznam.cz Vyhledávání

• Odkud přícházíme

• Kdo jsme

• Kam jdeme

Odkud přicházíme

• Rok = 2005

• Stroje = 11

• Lidé = 4

Kdo jsme

• Celkem 70 lidí

• 32 programátorů

• 16 produkt manažerů

• 12 výzkumníků

• 6 administrátorů

• 100 brigádníků

Kdo jsme

• Celkem 500 strojů

• 300 vyhledávání

• 150 robot

• 50 vývoj a výzkum

• 2 serverovny

Kdo jsme

• 500TB dat

• 50M dokumentů denně

• Rychlostí několik GBit/s

• Hledáme v 800M dokumentech

• 350 až 500 dotazů za sekundu

Kdo jsme

Kam jdeme

• “kniha o nemeckych tancich” ?

• Relevance

• Relevance

• Relevance

• Relevance

• …

Děkuji za pozornost…Tomáš Hlucháň