+ All Categories
Home > Technology > NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Date post: 05-Dec-2014
Category:
Upload: new-media-inspiration
View: 811 times
Download: 1 times
Share this document with a friend
Description:
Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
12
Extrakce strukturovaných dat z webových stránek New Media Inspiration 2013 Michal Illich
Transcript
Page 1: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Extrakce strukturovaných datz webových stránek

New Media Inspiration 2013

Michal Illich

Page 2: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Cože?

● na webu jsou miliardy stránek● jsou psané pro lidi● stroje jim téměř nerozumí což kupodivu zas tak nevadí

● ale nemůžeme se tak strojů na nic ptát– Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?

Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?

Page 3: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Už se na tom pracuje

● Freebase 2005

● Wikidi (velmi skromně) 2010

● Siri 2011 v iOS

● Google Knowledge Graph 2012

● Microsoft Probase stále research

Page 4: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Kde stojíme

● nemůžeme konkurovat Googlu ani Applu● ale naprostá většina firem neumí ani to co my● nápad: poskytneme jim to jako službu

#cloud #saas #b2b #ai #machinelearning #api

● pro koho?e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...

Page 5: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Web + příklad

Page 6: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Technicky...

Problém je složitý, zjednodušili jsme ho na:● Zákazník zná entity iPhone 5

● Zákazník ví co chce rozlišení, výrobce, operační systém, ...

● Ideálně má i část dat předvyplněných

A my už si automaticky odvodíme strukturu Jednotky? Rozsah hodnot? Možné kategorie?

Page 7: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Pro každou řádku (entitu)

● Zeptáme se vyhledávače na relevantní stránky● Stáhneme tak 30 až 50 stránek● Zanalyzujeme texty na stránce viz další slide

● Slejeme informace ze všech stránek● A vyplníme tabulku

Page 8: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Samotná extrakce

● Najdi fragmentyRozlišení: 5 megapixelů

● Slož z fragmentů kandidátapropertyName + number + unitName = super

● Ohodnoť kandidáty viz další slide

● Porovnej a sluč nejlepší kandidáty

Page 9: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Strojové učení

● Ohodnocení kandidátů – váhy nejdřív ručně● Ale strojové učení to zpřesní

Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat

● Boostované rozhodovací lesy Dříve i neuronové sítě, teď už je nepoužíváme

Page 10: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Strojové učení i jinde

Jde použít i pro čirá zákaznická data. Tedy bez té extrakce dat z webových stránek.

Takže pozor! Tenhle slide je o něčem jiném než ostatní :)

Např. Jak do newsletteru vybrat nej nabídky? To je pro MagicTable taky tabulka.

Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze

Strojové učení se na minulých datech naučí, na čem je konverze závislá.

A pro budoucí nabídky predikuje míru konverze.

Page 11: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Kde jsme

● V beta provozu● Dva zkušební zákazníci velké české firmy

● Bereme i další když mají zajímavý problém

● MagicTable.com miniweb

Page 12: NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

Díky!

[email protected]

@michalillich


Recommended