Date post: | 26-Jun-2015 |
Category: |
Technology |
Upload: | startupyard |
View: | 444 times |
Download: | 2 times |
Jak funguje Seznam.cz Vyhledávání Tomáš Hlucháň
O čem to bude?
Fulltextové hledání
• Získání dokumentů
• Analýza a tvorba hledací databáze
• Vyhledání a prezentace výsledků
• Zpětná vazba
Fulltextové hledání
• Co je to “Index”
• Tvorba
• Údržba
• Hledání
Fulltextové hledání v internetu
Jak pracuje fulltextové hledání
WWW DOKUMENTY INDEX
?
Získání a uložení dokumentů
• Kolik dokumentů chceme mít?
• Jak efektivně stahovat dokumenty?
• Kam je uložíme?
• Jak často je budeme obnovovat?
Získání a uložení dokumentů
WWW
DOKUMENTY
DOWNLOADER
PLÁNOVAČ
ANALÝZA
Indexace
DOKUMENTY
FEEDER
INDEX
INDEXER
MERGE
INDEX
INDEXER
MERGE
Indexy pod lupou
• Složení indexu– seznam dokumentů a jejich atributy– seznam dokumentů pro každé slovo– extrakt textu dokumentů pro úryvky
• Druhy indexů– complete– daily– fresh
Hledání a prezentace výsledků
• zpracování uživatelského dotazu
• distribuované hledání
• prezentace výsledků
Hledání a prezentace výsledků
?Příprava dotazu
Hledání
INDEX
Pochopení dotazu
• doplnění diakritiky
• doplnění skloňovaných tvarů slov
• detekce čísel
• generování podobných slov
• desambiguace
• detekce zkratek
• ....
Strom dotazusip tmobile babybox weisser universita
Hledání - distribuované hledání
Příprava dotazu
A
A A
I
H
I
H
I
H
I
H
Hledání - prezentace výsledku
• seřazení
• generování úryvku (snippet)
• náhled
• zpětná vazba
Seznam.cz Vyhledávání
• Odkud přícházíme
• Kdo jsme
• Kam jdeme
Odkud přicházíme
• Rok = 2005
• Stroje = 11
• Lidé = 4
Kdo jsme
• Celkem 70 lidí
• 32 programátorů
• 16 produkt manažerů
• 12 výzkumníků
• 6 administrátorů
• 100 brigádníků
Kdo jsme
• Celkem 500 strojů
• 300 vyhledávání
• 150 robot
• 50 vývoj a výzkum
• 2 serverovny
Kdo jsme
• 500TB dat
• 50M dokumentů denně
• Rychlostí několik GBit/s
• Hledáme v 800M dokumentech
• 350 až 500 dotazů za sekundu
Kdo jsme
Kam jdeme
• “kniha o nemeckych tancich” ?
• Relevance
• Relevance
• Relevance
• Relevance
• …
Děkuji za pozornost…Tomáš Hlucháň