+ All Categories
Home > Documents > Web Information extraction - extrakce informací z webu

Web Information extraction - extrakce informací z webu

Date post: 15-Mar-2016
Category:
Upload: beau-malone
View: 35 times
Download: 1 times
Share this document with a friend
Description:
Web Information extraction - extrakce informací z webu. NSWI140 15.12.2010 Jan D ědek. Obsah. Extrakce pomocí struktury Př ehled Lixto VIDOME Lingvistická extrakce “Semantic Czech” Pojmenované entity (názvy) KIM. Sémantizace webu (skoro) automaticky. Extrakce pomocí struktury. - PowerPoint PPT Presentation
35
1 Web Information extraction - extrakce informací z webu NSWI140 15.12.2010 Jan Dědek
Transcript
Page 1: Web Information extraction - extrakce informací z webu

1

Web Information extraction- extrakce informací z webu

NSWI14015.12.2010Jan Dědek

Page 2: Web Information extraction - extrakce informací z webu

2

Obsah Extrakce pomocí struktury

Přehled Lixto VIDOME

Lingvistická extrakce “Semantic Czech”

Pojmenované entity (názvy) KIM

Page 3: Web Information extraction - extrakce informací z webu

3

Extraction & Annotation

Tools

WebSemantized Web

AnnotatedWebPageWeb

Page

SemanticSearchEngine

Semantic Query

Semantic Repository

Extraction

Annotation

SearchEngine

Keyword Query

WebStore & Index

Sémantizace webu(skoro) automaticky

Page 4: Web Information extraction - extrakce informací z webu

4

Extrakce pomocí struktury HTML wrapping Regulární výrazy

Ruční návrh pravidel Trénované Chytré GUI

Page 5: Web Information extraction - extrakce informací z webu

5

WIE – Je to těžké?

WIE

Page 6: Web Information extraction - extrakce informací z webu

6

WIE – ručně nebo automaticky?

Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan,"A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp. 1411-1428, October, 2006.

Page 7: Web Information extraction - extrakce informací z webu

7

Hyper-tree

WIE – Má to nějakou teorii?

Gramatiky

Pravidla

Automaty

Page 8: Web Information extraction - extrakce informací z webu

8

WIE - Přehled nástrojů

Chia

-Hui

Cha

ng, M

oham

med

Kay

ed, M

oheb

Ram

zy G

irgis,

Kha

led

F. S

haal

an,

"A S

urve

y of

Web

Info

rmat

ion

Extr

acti

on S

yste

ms,

" IEE

E Tr

ansa

ctio

ns o

n Kn

owle

dge

and

Data

Eng

inee

ring,

vol

. 18,

no.

10,

pp.

141

1-14

28, O

ctob

er, 2

006.

Lze dohledat

Page 9: Web Information extraction - extrakce informací z webu

9

Lixto Visual Developer

Page 10: Web Information extraction - extrakce informací z webu

10

VIDOME MDR algoritmus Implementace Dušan Maruščák 2007 DP KSI

Hledání podobných uzlů v DOM opakování

Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords

Page 11: Web Information extraction - extrakce informací z webu

11

3 fáze extrakce1. Identifikace Data Regions

Datové regiony2. Identifikace Data Records

Datové záznamy3. Identifikace Data Attributes

Atributy datových záznamů Pomocí regulárních výrazů

Opakování v DOM

Page 12: Web Information extraction - extrakce informací z webu

12

Datové regiony a záznamy (1)Souhrnná stránka

Datový záznam 2(nabídka 2)

Datový záznam 1(nabídka 1)

Stránka s detaily 1

odkaz na detaily odkaz na detaily

Popisky Hodnoty

≈Stránka s detaily 2

Popisky Hodnoty

Odpovídající DOM strom

≈Dat. záznam 1 Dat. záznam 2

Datový region

Page 13: Web Information extraction - extrakce informací z webu

13

Datové regiony a záznamy (2)

Identifiying Data Records

Differences Extraction

Identifiying Data Regions

Extracted Instance

Ontology

Attribute Identification

Attribute Labels

Detection

Master PageDOM Tree

Detail Page DOM Tree &

HTML Source

Page 14: Web Information extraction - extrakce informací z webu

14

Datové regiony - příklad

Page 15: Web Information extraction - extrakce informací z webu

15

Hledání datových regionů1 function BFSfindDR(LevelNodes)2 begin3 NextLevelNodes = Ø;4 regions = Ø;5 for each Node in LevelNodes do6 begin 7 regions=identDataRegions(normalized(Node.children));8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions);9 end10 if NextLevelNodes != Ø11 return regions U BFDfindDR(NextLevelNodes);12 else return regions;13 end

Kde hledat v dalším zanoření

Už jsme našli

Rekurze

Page 16: Web Information extraction - extrakce informací z webu

16

Datový záznam ve vícero uzlech<table>

<tr><td>

A1</td><td>

A2</td>

</tr><tr>

<td>

B1</td>

…</table>

Page 17: Web Information extraction - extrakce informací z webu

17

identDataRegions

Podobnost uzlů Dvojic uzlů Trojic uzlů …

Podobnost ~ Editační vzdálenost

Page 18: Web Information extraction - extrakce informací z webu

18

Levenshteinova editační vzdálenost= matcho subst+ ins- del

+1 „+“

+1„-“

+1 / 0„o / =“

Cíl

Zdro

j

Page 19: Web Information extraction - extrakce informací z webu

19

Mapování do ontologie(zatím nedokončeno)

Page 20: Web Information extraction - extrakce informací z webu

20

Java regexphttp://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html

Příklad: Character classes[abc] a, b, or c (simple class)[^abc]

Any character except a, b, or c (negation)[a-zA-Z] a through z or A through Z, inclusive (range)[a-d[m-p]] a through d, or m through p: [a-dm-p] (union)[a-z&&[def]] d, e, or f (intersection)[a-z&&[^bc]] a through z, except for b and c: [ad-z] (subtraction)

[a-z&&[^m-p]] a through z, and not m through p: [a-lq-z](subtraction)

\d A digit: [0-9]

Page 21: Web Information extraction - extrakce informací z webu

21

Page 22: Web Information extraction - extrakce informací z webu

22

VIDOME - shrnutí K dispozici na

http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/ Pouze Win Instalace – viz dokumentce Server aplikace + Firefox plugin Výstup HTML nebo MySQL

Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl

Page 23: Web Information extraction - extrakce informací z webu

23

SimilaritySpider Implementace Michal Šenkýř 2010 DP KSI http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/

Page 24: Web Information extraction - extrakce informací z webu

24

SimilaritySpider - Hlavní okno aplikace

Page 25: Web Information extraction - extrakce informací z webu

25

SimilaritySpider - Štítkovací rozhraní

Page 26: Web Information extraction - extrakce informací z webu

26

Lingvistická extrakce Nejprve pdf prezentace

Viz: 20101005_Dedek_Uzivatelsko-webovy_seminar.pdf

Page 27: Web Information extraction - extrakce informací z webu

27

Extrakční pravidlo…ochrana životního prostředí

1

3

4

2

5

t_lemma = uniknout | unikat | vytéci

_name = unit

gram/sempos = adj.quant.def_name = amount

_optional = truefunctor = DIR3

_name = where

functor = MAT_name = material

Page 28: Web Information extraction - extrakce informací z webu

Example of a linguistic tree

jihmor56559.txt-001-p1s3

litre

diesel

"into" water stream

(1)(2)

(5)(3)

(4)

"Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel)has run out to a stream."

“Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”

Page 29: Web Information extraction - extrakce informací z webu

29

<QueryMatches> <Match root_id="jihmor56559.txt-001-p1s3" match_string="15:0,16:4,22:1,23:2,27:3"> <Sentence>Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">800</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">potok</Value> </Data> </Match> <Match root_id="jihmor68220.txt-001-p1s3" match_string="3:0,12:4,21:1,22:2,27:3"> <Sentence>Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">350</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">půda</Value> </Data> </Match>...

litre

dieselwater stream

soil

Experimental results – extracted data

Page 30: Web Information extraction - extrakce informací z webu

30

Pojmenované entity

Page 31: Web Information extraction - extrakce informací z webu

31

Pojmenované entity Lingvistický přístup

<Location>Barbados</Location> Sémantický přístup<Island ID=“http://...#Island.1234”>

Barbados</Island>

Nejčastěji využívaný framework GATEhttp://www.gate.ac.uk

Page 32: Web Information extraction - extrakce informací z webu

32

KIM Platform Novinové články Velká KB

Integrací mnoha DB Zeměpisné Obchodní

http://www.ontotext.com/kim

Page 33: Web Information extraction - extrakce informací z webu

33

KIM Ontology

Page 34: Web Information extraction - extrakce informací z webu

34

KIM KB (2006)RDF Statements Small KB Full KB

- explicit 444,086 2,248,576

- after inference 1,014,409 5,200,017

Instances

- Entity: 40,804 205,287 - Location: 12,528 35,590

- Country: 261 261

- Province: 4,262 4,262

- City: 4,400 4,417

- Organization: 8,339 146,969 - Company: 7,848 146,262

- Person: 6,022 6,354

- Alias: 64,589 429,035

Page 35: Web Information extraction - extrakce informací z webu

35

KIM funkcionalita Animace

http://ontotext.com/kim/KIM-demo.htmlhttp://ontotext.com/kim/core-timelines.htm


Recommended