+ All Categories
Home > Documents > Kam směřuje webové vyhledávání Web-scale knowledge base

Kam směřuje webové vyhledávání Web-scale knowledge base

Date post: 21-Mar-2016
Category:
Upload: howie
View: 32 times
Download: 0 times
Share this document with a friend
Description:
Kam směřuje webové vyhledávání Web-scale knowledge base. Tomáš Hejl Dotazovací jazyky II 2010/2011. Web jako databáze. „Web-scale knowledge base“ Web obsahuje prakticky všechny dostupné znalosti Současné vyhledávače umí nalézt stránku, která obsahuje hledané informace - PowerPoint PPT Presentation
54
Kam směřuje webové vyhledávání Web-scale knowledge base Tomáš Hejl Dotazovací jazyky I 2010/2011
Transcript
Page 1: Kam směřuje  webové vyhledávání Web-scale knowledge base

Kam směřuje webové vyhledávání

Web-scale knowledge base

Tomáš HejlDotazovací jazyky II2010/2011

Page 2: Kam směřuje  webové vyhledávání Web-scale knowledge base

Web jako databáze

„Web-scale knowledge base“

Web obsahuje prakticky všechny dostupné znalosti

Současné vyhledávače umí nalézt stránku, která obsahuje

hledané informace neumí vytvářet souvislosti, odvozovat

2

Page 3: Kam směřuje  webové vyhledávání Web-scale knowledge base

Motivace„The Unreasonable Effectiveness of Data“

3

Page 4: Kam směřuje  webové vyhledávání Web-scale knowledge base

Fyzika vs. Vědy zahrnující člověka

FYZIKA

 

GRAMATIKA ANGLIČTINY(NEKOMPLETNÍ)

1700 stran textu

Přirozené zpracování textu není možné popsat jednoduše, jsou zapotřebí komplexní teorie. 4

Page 5: Kam směřuje  webové vyhledávání Web-scale knowledge base

Seznam slov

Google (2006)

Bilion slov včetně chyb, překlepů… včetně sekvencí slov do délky 5 a jejich

frekvencí

Zahrnuje veškeré lidské znalosti, kompletní model

5

Page 6: Kam směřuje  webové vyhledávání Web-scale knowledge base

Dosavadní úspěchy

Převod řeči na text Automatické překlady

Důvod? Pro mnoho lidí každodenní běžné aktivity Mnoho testovacích dat Velká motivace pro automatizaci

6

Page 7: Kam směřuje  webové vyhledávání Web-scale knowledge base

Méně úspěšné oblasti

Klasifikace dokumentů Rozpoznávání slovních druhů Syntaktická analýza (parsing)

V běžném životě nepříliš časté Málo testovacích dat Vyžadovány anotace lidským

expertem Anotace nebývají jednoznačné

7

Page 8: Kam směřuje  webové vyhledávání Web-scale knowledge base

Co jsme se zatím naučili I.Nespoléhat se na anotaceVyužít dostupná objemná data

Sémantické vztahy se dají často odvodit▪ Dotaz pro vyhledávač + Zvolená

odpověď▪ Formátovaná data na webu, tabulky se

záhlavím8

Page 9: Kam směřuje  webové vyhledávání Web-scale knowledge base

Co jsme se zatím naučili II. Lepší je jednodušší model s více

daty, než naopak

Podobnost s překlady Dříve: Složitá sémantická a syntaktická

pravidla Dnes: Rozsáhlá tabulka mapování frází

9

Page 10: Kam směřuje  webové vyhledávání Web-scale knowledge base

Co jsme se zatím naučili III.

Realita = nekonečné množství dat

Úspěšná reprezentace či aproximace= stačí řádově miliardy či biliony

příkladů

10

Page 11: Kam směřuje  webové vyhledávání Web-scale knowledge base

Co jsme se zatím naučili IV.Nevyřazovat ojedinělé případy

Jednotlivě jsou vzácné, ale společně tvoří model

Komplexní pravidla mohou zastarat Význam frází se mění, přibývají nová

slova

Komplexní pravidla nemusí stačit Lidé často nepíší podle pravidel, gramatiky,

pravopisu…11

Page 12: Kam směřuje  webové vyhledávání Web-scale knowledge base

Nejčastější přístup

Analýza pravděpodobnosti výskytů různých n-tic slov v textu

Mnoho jednoduchých automatických pravidel místo pravidel obecných

12

Page 13: Kam směřuje  webové vyhledávání Web-scale knowledge base

Sémantický webvs. Sémantická interpretaceDva přístupy

13

Page 14: Kam směřuje  webové vyhledávání Web-scale knowledge base

Porovnání

SÉMANTICKÝ WEB

Sémantika je ukryta v předem určených formátech

Lidé píšou v pevně daném formátu, počítače mu rozumí

SÉMANTICKÁ INTERPRETACE Sémantiku určují

lidé přirozenou tvorbou jazyka

Počítač se snaží text interpretovat

14

Page 15: Kam směřuje  webové vyhledávání Web-scale knowledge base

Sémantický web

15

Page 16: Kam směřuje  webové vyhledávání Web-scale knowledge base

Problémy sémantického webu I. Vytvoření ontologií

Již existují formáty pro mnoho témat (datum a čas, lokace, genové sekvence, rezervace hotelů…)

Méně používaná témata se zřejmě formátů nedočkají

Nutná shoda expertů, konkurenční společnosti prosazují vlastní formát

Drahé (Projekt Halo, převedení učebnice chemie, $10.000 za stránku)

16

Page 17: Kam směřuje  webové vyhledávání Web-scale knowledge base

Problémy sémantického webu II.

HTML STRÁNKA

Textový editor

SÉMANTICKÝ WEB

Webová služba

Databáze

Splnění všech požadavků na formát

Obtížné nasazení

17

Page 18: Kam směřuje  webové vyhledávání Web-scale knowledge base

Problémy sémantického webu III.Nutnost sémantické interpretace

zůstává, byť v menším měřítku

Stroj podle ontologie ví, že „Joe‘s Pizza“ je název firmy

Stroj neví, o kterou firmu s tímto názvem se jedná

Stroj neví, že jde o pizzerii 18

Page 19: Kam směřuje  webové vyhledávání Web-scale knowledge base

Sémantická interpretace

19

Page 20: Kam směřuje  webové vyhledávání Web-scale knowledge base

Sémantická interpretace

Obsah již existuje

Obsah je agregován a indexován

Obsah neumíme strojově interpretovat

20

Page 21: Kam směřuje  webové vyhledávání Web-scale knowledge base

Problém sémantické interpretace Jedno vyjádření různé významy Jeden význam různá vyjádření

Hledání synonym, atributů třídy… Pomocí tabulek v HTML Pomocí vyhledávacích dotazů

21

Page 22: Kam směřuje  webové vyhledávání Web-scale knowledge base

Získávání dat a souvislostí Web-scale knowledge base

22

Page 23: Kam směřuje  webové vyhledávání Web-scale knowledge base

Cíl - připomenutí

Nástroj

Umožňující propojení všech informací na webu

Automaticky odpovídající na faktografické dotazy

Doménově nezávislý, obecný23

Page 24: Kam směřuje  webové vyhledávání Web-scale knowledge base

Existující nástroje I.TextRunner

24

Page 25: Kam směřuje  webové vyhledávání Web-scale knowledge base

TextRunner Úvod University of Washington

Zaměření na obecný text

Analyzuje věty a vytváří systém trojic („Einstein se narodil v roce 1879“ přidá pár <Einstein,1879> do relace „narození“)

Podle frekvence výskytu kontroluje přesnost Validní informace o Einsteinově narození bude na mnoha webech

http://www.cs.washington.edu/research/textrunner/indexTRTypes.html

25

Page 26: Kam směřuje  webové vyhledávání Web-scale knowledge base

TextRunner Konkurence

Dipre

KnowItAll

SnowBall

Yago

Kylin26

Page 27: Kam směřuje  webové vyhledávání Web-scale knowledge base

TextRunner Výhody oproti konkurenci

Dávkový režim Podobně jako tradiční vyhledávače Zpracuje veškerá dostupná data najednou,

produkuje a ukládá velké množství trojic Konkurence vybírá kde hledat až podle

dotazu

Schéma si vytváří sám za běhu Konkurence vyžaduje schéma trojic, názvy

relací, fráze odpovídající relacím atd.27

Page 28: Kam směřuje  webové vyhledávání Web-scale knowledge base

TextRunner Nasazení

První test 9M stránek 1M trojic 88% úspěšnost

Druhý test 500M stránek 200M trojic Přesnost v době vydání článku (2008) ještě

nebyla známa 28

Page 29: Kam směřuje  webové vyhledávání Web-scale knowledge base

TextRunner Výstupní data

Odlišné od klasických relačních dat Počet „sloupců“▪ TextRunner – 2, SQL tabulky – více

Doména▪ SQL – „tabulkové“ hodnoty, v textu bývají

více textové Počet výskytů▪ TextRunner bere v úvahu jen vícenásobné

výskyty Názvy sloupců▪ TextRunner nemá pojmenované prvky relací 29

Page 30: Kam směřuje  webové vyhledávání Web-scale knowledge base

Existující nástroje II.WebTables

30

Page 31: Kam směřuje  webové vyhledávání Web-scale knowledge base

WebTablesÚvod

Google Research (+MIT, Univ. Washington, Berkeley)

Extrahuje data z HTML tabulek Jen 1.1% HTML tabulek obsahuje relační data! 154M tabulek je i tak největší relační databáze

vůbec (o 5 řádů)

31

Page 32: Kam směřuje  webové vyhledávání Web-scale knowledge base

WebTablesRozpoznání relační tabulky

Rozpoznání relační tabulky je obtížné

Krok 1. Vyhodit zřejmé nerelační tabulky Jen 1 řádek, 1 sloupec, kalendáře, HTML layout Ruční pravidla Odstraní cca 89% tabulek

Krok 2. Trénované statistické filtry Počet prázdných buněk, počet číselných dat, počet řádků a

sloupců… Obtížné a nedokonalé: 81% úplnost, 41% přesnost

125M rel.tab. + 146M falešných tabulek32

Page 33: Kam směřuje  webové vyhledávání Web-scale knowledge base

WebTablesDalší postup

Krok 3. Hledání metadat relací

71% relací má metadata

Na rozdíl od databází nemůžu počítat s cizími klíči atd.

Pouze hlavičky sloupců (někdy obtížné najít)▪ Opět trénované filtry▪ 89% přesnost, 85% úplnost

33

Page 34: Kam směřuje  webové vyhledávání Web-scale knowledge base

WebTablesVýhody

Tabulky přímo definují relace i jejich metadata

Tabulky určují příslušnost prvků do množin WebTables – všechny prvky sloupce TextRunner – ve „sloupci“ jsou různé

informace

Data z WebTables mohou rozšířit data z TextRunneru

34

Page 35: Kam směřuje  webové vyhledávání Web-scale knowledge base

Existující nástroje III.Deep-Web Crawl

35

Page 36: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlDeep-Web data I.

Deep-Web = Data z běžných databází, dostupná pouze přes HTML formuláře

36

Page 37: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlDeep-Web data II.

Na rozdíl od HTML tabulek nedostupné pomocí běžných vyhledávačů Neumí vyplňovat formuláře

Spekulace: Data v Deep-Web DB výrazně počtem převyšují doposud indexovaná data

Cca 10M takových formulářů37

Page 38: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlProjekt

Google

Cíle Zpřístupnit Deep-Web DB pro

vyhledávání Univerzálně pro všechny typy formulářů

Projekt : Deep-Web Crawl Data z něj již jsou dostupná přes Google

38

Page 39: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlDva přístupy: Integrace Vytvoření vyhledávačů-prostředníků pro každou doménu

(auta, knihy, nemovitosti…)

Dotaz na vyhledavač aut převede dotaz na jednotlivé dotazy pro všechny formuláře, týkající se aut, pomocí sémantického mapování složí výsledky

Problémy Ruční vytváření prostředníků a mapování je pracné a

drahé Rozpoznání domény vstupu je obtížné Mnoho domén, mnoho jazyků

Nevhodné39

Page 40: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlDva přístupy: Surfacing

Odvození vhodných vstupů pro formulář

Indexování dosažených výsledků

Může využít stávající metody indexování do běžných systémů

40

Page 41: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlTextové vstupy

Dva typy textových vstupů Obecné vyhledávání▪ Přijme všechny řetězce, občas nevrátí nic▪ Pomáhá analýza již naindexovaného okolí formuláře

a iterativní zlepšování analýzou vrácených výsledků „Typovaný“ vstup▪ Přijme pouze prvky své domény, která nemusí být

zřejmá▪ Používá se knihovna často používaných typů (např.

PSČ)▪ Většina těchto vstupů se dá pokrýt malým

množstvím typů41

Page 42: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlKombinace vstupů

select / checkbox prvky jsou „snadné“

Není vhodné zkoušet všechny možnosti Př.: cars.com, 5 selectů = 200M

možností, reálně 650 000 aut

Algoritmus prochází kartézský součin všech možností a hledá kombinace, které generují webové stránky s unikátním obsahem

42

Page 43: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlVýsledky

Několik stovek vstupů pro každý formulář

Počet vstupů je poměrný velikosti databáze, ne počtu prvků vstupu

Výsledky obsahují velké procento Deep-Web databáze, bez jediného lidského zásahu

43

Page 44: Kam směřuje  webové vyhledávání Web-scale knowledge base

Deep-Web CrawlZpracování výsledků

Při surfacingu se ztrácí struktura databáze (strukturovaná databáze HTML)

Výsledky často v podobě HTML tabulek WebTables, lepší než obyčejná

tabulka (více podobných tabulek, snazší odvozování) Prostor na zlepšení do budoucna

Popisky formulářů metadata44

Page 45: Kam směřuje  webové vyhledávání Web-scale knowledge base

Existující nástroje IV.TabEx + ProId

45

Page 46: Kam směřuje  webové vyhledávání Web-scale knowledge base

TabEx + ProIdeÚvod

Yahoo!

Zpracovává tabulky na webu, konkrétně tabulky dvojic (Atribut/Hodnota)

Cíl = trojice (Subjekt / Atribut / Hodnota)46

Page 47: Kam směřuje  webové vyhledávání Web-scale knowledge base

TabEx

Klasifikace tabulek Tabulky layoutu Tabulky Atribut/Hodnota Ostatní

5000 tabulek ohodnocených experty učení

Pravidla (layout buněk, typ obsahu…)

Přesnost 76%, úplnost 76%47

Page 48: Kam směřuje  webové vyhledávání Web-scale knowledge base

ProIde

„Protagonist Detection“

Hledání předmětu ke dvojicím atribut-hodnota V tabulce (atribut name) atp. V titulku stránky V odkazech, vedoucích na stránku Nalezení všech n-tic ve stránce

Nejčastější text odkazu 40% přesnost ProIde 65% přesnost

48

Page 49: Kam směřuje  webové vyhledávání Web-scale knowledge base

Poznatky z výzkumu

49

Page 50: Kam směřuje  webové vyhledávání Web-scale knowledge base

Zajímavé vedlejší produkty výzkumu Velkou cenu mají kolekce metadat

Názvy sloupců v tabulkách či formulářových prvků, vyskytujících se spolu

Časté hodnoty prvků s daným názvem, tedy doména daného atributu

Názvy sloupců se stejnou doménou (synonyma)

Sémantické služby, poskytující informace o těchto souvislostech, např. hledání synonym

50

Page 51: Kam směřuje  webové vyhledávání Web-scale knowledge base

Shrnutí

51

Page 52: Kam směřuje  webové vyhledávání Web-scale knowledge base

ShrnutíCíl: Web-scale knowledge base

TextRunner Zpracovává obecný text Hledá trojice (relace a dva prvky)

WebTables Zpracovává HTML tabulky Hledá relační data

Deep-Web Crawl Zpracovává data, přístupná přes formuláře Hledá relační data

TabEx + ProIde Zpracovává dvousloupcové HTML tabulky Hledá trojice (subjekt / atribut / hodnota)

52

Page 53: Kam směřuje  webové vyhledávání Web-scale knowledge base

Literatura

The Unreasonable Effectiveness of Data Alon Halevy, Peter Norvig, Fernando Pereira

Web-Scale Extraction of Structured Data Michael J. Cafarella, Jayant Madhavan, Alon Halevy

Web-Scale Knowledge Extraction from Semi-Structured Tables Eric Crestan, Patrick Pantel

53

Page 54: Kam směřuje  webové vyhledávání Web-scale knowledge base

Konec

54


Recommended