Web Information extraction - extrakce informací z webu

1

Web Information extraction- extrakce informací z webu

NSWI14015.12.2010Jan Dědek

2

Obsah Extrakce pomocí struktury

Přehled Lixto VIDOME

Lingvistická extrakce “Semantic Czech”

Pojmenované entity (názvy) KIM

3

Extraction & Annotation

Tools

WebSemantized Web

AnnotatedWebPageWeb

Page

SemanticSearchEngine

Semantic Query

Semantic Repository

Extraction

Annotation

SearchEngine

Keyword Query

WebStore & Index

Sémantizace webu(skoro) automaticky

4

Extrakce pomocí struktury HTML wrapping Regulární výrazy

Ruční návrh pravidel Trénované Chytré GUI

5

WIE – Je to těžké?

WIE

6

WIE – ručně nebo automaticky?

Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan,"A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp. 1411-1428, October, 2006.

7

Hyper-tree

WIE – Má to nějakou teorii?

Gramatiky

Pravidla

Automaty

8

WIE - Přehled nástrojů

Chia

-Hui

Cha

ng, M

oham

med

Kay

ed, M

oheb

Ram

zy G

irgis,

Kha

led

F. S

haal

an,

"A S

urve

y of

Web

Info

rmat

ion

Extr

acti

on S

yste

ms,

" IEE

E Tr

ansa

ctio

ns o

n Kn

owle

dge

and

Data

Eng

inee

ring,

vol

. 18,

no.

10,

pp.

141

1-14

28, O

ctob

er, 2

006.

Lze dohledat

9

Lixto Visual Developer

10

VIDOME MDR algoritmus Implementace Dušan Maruščák 2007 DP KSI

Hledání podobných uzlů v DOM opakování

Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords

11

3 fáze extrakce1. Identifikace Data Regions

Datové regiony2. Identifikace Data Records

Datové záznamy3. Identifikace Data Attributes

Atributy datových záznamů Pomocí regulárních výrazů

Opakování v DOM

12

Datové regiony a záznamy (1)Souhrnná stránka

Datový záznam 2(nabídka 2)

Datový záznam 1(nabídka 1)

Stránka s detaily 1

odkaz na detaily odkaz na detaily

Popisky Hodnoty

≈

≈Stránka s detaily 2

Popisky Hodnoty

Odpovídající DOM strom

≈Dat. záznam 1 Dat. záznam 2

Datový region

13

Datové regiony a záznamy (2)

Identifiying Data Records

Differences Extraction

Identifiying Data Regions

Extracted Instance

Ontology

Attribute Identification

Attribute Labels

Detection

Master PageDOM Tree

Detail Page DOM Tree &

HTML Source

14

Datové regiony - příklad

15

Hledání datových regionů1 function BFSfindDR(LevelNodes)2 begin3 NextLevelNodes = Ø;4 regions = Ø;5 for each Node in LevelNodes do6 begin 7 regions=identDataRegions(normalized(Node.children));8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions);9 end10 if NextLevelNodes != Ø11 return regions U BFDfindDR(NextLevelNodes);12 else return regions;13 end

Kde hledat v dalším zanoření

Už jsme našli

Rekurze

16

Datový záznam ve vícero uzlech<table>

<tr><td>

A1</td><td>

A2</td>

</tr><tr>

<td>

B1</td>

…</table>

17

identDataRegions

Podobnost uzlů Dvojic uzlů Trojic uzlů …

Podobnost ~ Editační vzdálenost

18

Levenshteinova editační vzdálenost= matcho subst+ ins- del

+1 „+“

+1„-“

+1 / 0„o / =“

Cíl

Zdro

j

19

Mapování do ontologie(zatím nedokončeno)

20

Java regexphttp://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html

Příklad: Character classes[abc] a, b, or c (simple class)[^abc]

Any character except a, b, or c (negation)[a-zA-Z] a through z or A through Z, inclusive (range)[a-d[m-p]] a through d, or m through p: [a-dm-p] (union)[a-z&&[def]] d, e, or f (intersection)[a-z&&[^bc]] a through z, except for b and c: [ad-z] (subtraction)

[a-z&&[^m-p]] a through z, and not m through p: [a-lq-z](subtraction)

\d A digit: [0-9]

21

22

VIDOME - shrnutí K dispozici na

http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/ Pouze Win Instalace – viz dokumentce Server aplikace + Firefox plugin Výstup HTML nebo MySQL

Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl

http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/

23

SimilaritySpider Implementace Michal Šenkýř 2010 DP KSI http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/

http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/

24

SimilaritySpider - Hlavní okno aplikace

25

SimilaritySpider - Štítkovací rozhraní

26

Lingvistická extrakce Nejprve pdf prezentace

Viz: 20101005_Dedek_Uzivatelsko-webovy_seminar.pdf

27

Extrakční pravidlo…ochrana životního prostředí

1

3

4

2

5

t_lemma = uniknout | unikat | vytéci

_name = unit

gram/sempos = adj.quant.def_name = amount

_optional = truefunctor = DIR3

_name = where

functor = MAT_name = material

Example of a linguistic tree

jihmor56559.txt-001-p1s3

litre

diesel

"into" water stream

(1)(2)

(5)(3)

(4)

"Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel)has run out to a stream."

“Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”

29

<QueryMatches> <Match root_id="jihmor56559.txt-001-p1s3" match_string="15:0,16:4,22:1,23:2,27:3"> <Sentence>Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">800</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">potok</Value> </Data> </Match> <Match root_id="jihmor68220.txt-001-p1s3" match_string="3:0,12:4,21:1,22:2,27:3"> <Sentence>Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">350</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">půda</Value> </Data> </Match>...

litre

dieselwater stream

soil

Experimental results – extracted data

30

Pojmenované entity

31

Pojmenované entity Lingvistický přístup

<Location>Barbados</Location> Sémantický přístup<Island ID=“http://...#Island.1234”>

Barbados</Island>

Nejčastěji využívaný framework GATEhttp://www.gate.ac.uk

32

KIM Platform Novinové články Velká KB

Integrací mnoha DB Zeměpisné Obchodní

http://www.ontotext.com/kim

33

KIM Ontology

34

KIM KB (2006)RDF Statements Small KB Full KB

- explicit 444,086 2,248,576

- after inference 1,014,409 5,200,017

Instances

- Entity: 40,804 205,287 - Location: 12,528 35,590

- Country: 261 261

- Province: 4,262 4,262

- City: 4,400 4,417

- Organization: 8,339 146,969 - Company: 7,848 146,262

- Person: 6,022 6,354

- Alias: 64,589 429,035

35

KIM funkcionalita Animace

http://ontotext.com/kim/KIM-demo.htmlhttp://ontotext.com/kim/core-timelines.htm

Date post:	15-Mar-2016
Category:	Documents
Upload:	beau-malone
View:	35 times
Download:	1 times

Web Information extraction - extrakce informací z webu

Documents