+ All Categories
Home > Documents > Text Mining: SAS Enterprise Miner versus Teragram

Text Mining: SAS Enterprise Miner versus Teragram

Date post: 26-Feb-2022
Category:
Upload: others
View: 11 times
Download: 0 times
Share this document with a friend
33
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha
Transcript
Page 1: Text Mining: SAS Enterprise Miner versus Teragram

Text Mining: SAS Enterprise Miner versus Teragram

Petr Berka, Tomáš Kliegr

VŠE Praha

Page 2: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 2 2 2

Text mining vs. data mining

otázka vhodné reprezentace dat (typicky „bag of words“)

2 možné přístupy k text mining:

Předzpracování dat + „běžné“ algoritmy pro data mining

Speciální algoritmy pro text mining

Text mining = data mining na nestrukturovaných textových dokumentech

Berka & Kliegr @ SAS Forum 2011

Page 3: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 3 3

Úlohy text mining Vyhledávání informací (information retrieval, IR) –

dokument chápan jako celek

text categorization

document clustering

document filtering

duplication detection

sentiment analysis

Extrakce informací (information extraction, IE) – hledání v dokumentech

text summarization

template mining Berka & Kliegr @ SAS Forum 2011

Page 4: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 4 4

Text Mining a SAS: Enterprise Miner

Předzpracování textů Text parsing node (převod dokumentu na BoW)

Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání)

Text topics node (reprezentace dokumentů souhrnnějšími „tématy“ s využitím SVD)

Text mining Text mining node (převod dokumentu na BoW,

propojení témat, shlukování dokumentů – SVD, termíny)

Berka & Kliegr @ SAS Forum 2011

Page 5: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 5 5

EM pro IR: předzpracování + „běžný“ data mining

Berka & Kliegr @ SAS Forum 2011

Page 6: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 6 6

Text Parsing node - results

Berka & Kliegr @ SAS Forum 2011

Page 7: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 7 7

Text Filter node - results

Berka & Kliegr @ SAS Forum 2011

Page 8: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 8 8

Text filter node – view

Berka & Kliegr @ SAS Forum 2011

Page 9: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 9 9

Text Topics node - results

Berka & Kliegr @ SAS Forum 2011

Page 10: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 10 10

Text Topics node - viewer

Berka & Kliegr @ SAS Forum 2011

Page 11: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 11 11

„Běžný“ data mining

Berka & Kliegr @ SAS Forum 2011

téma

Page 12: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 12 12

EM pro IR: speciální algoritmy pro text mining

Berka & Kliegr @ SAS Forum 2011

Page 13: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 13 13

Text Mining node - parsing

Berka & Kliegr @ SAS Forum 2011

Page 14: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 14 14

Text mining node - analýza

Berka & Kliegr @ SAS Forum 2011

Page 15: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 15 15

„Běžný“ data mining

Berka & Kliegr @ SAS Forum 2011

SVD dimenze

Page 16: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 16 16

„Běžný“ data mining

Berka & Kliegr @ SAS Forum 2011

termín

Page 17: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 17 17

Text Mining a SAS: komponenty Teragram

Content categorization

+ document duplication detection

+ text summarization

+ search and indexing

+ … (web crawler, content alerts, MeSH rules, IPTC rules)

Sentiment analysis

Ontology management

Berka & Kliegr @ SAS Forum 2011

Page 18: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 18 18

SAS Content Categorization

Slouží pro kategorizaci dokumentů (IR)

Statistické učení

Automatické učení pravidel

Ruční definice pravidel

a identifikaci konceptů v dokumentech (IE)

Klasifikační koncepty

Gramaticky definované koncepty

Berka & Kliegr @ SAS Forum 2011

Page 19: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 19

Kategorizace dokumentů Statistické učení

Black box přístup, vznikne hierarchie konceptů

Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada

ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii)

Ruční Nekvalifikovaná pravidla – seznam slov

Kvalifikovaná pravidla – spec. symboly: (cena@), (*produkt), (-sport), (--vítěz)

Vážená lingvistická pravidla

Berka & Kliegr @ SAS Forum 2011 19

Page 20: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 20 20

Výběr nejvhodnější kategorie

Režim frekvenční relevance Match Ratio udává počet termů, které musí být

rozpoznány, aby byl dokument klasifikován do dané kategorie

Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií

Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu

dostanou větší váhu Vhodné pro novinové články

Berka & Kliegr @ SAS Forum 2011

Page 21: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 21 21

Kategorie a termíny

Berka & Kliegr @ SAS Forum 2011

Page 22: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 22 22

Definice konceptů

Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí

„regulárních výrazů“ Vhodné pro zachycení očekávaných informací,

nebo informací, pro které lze sestrojit regulární výraz

Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí

lingvistických pravidel

Berka & Kliegr @ SAS Forum 2011

Page 23: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 23 23

Gramatický koncept: definování

Berka & Kliegr @ SAS Forum 2011

Page 24: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 24 24

Gramatický koncept: hledání

<HearstPattern>life is a mistake</HearstPattern>

Berka & Kliegr @ SAS Forum 2011

Page 25: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 25

Podpora češtiny

Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75

Page 26: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 26

Shrnutí SAS Content Categorization

Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií

Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu

Page 27: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 27

SAS Document duplication detection (IR)

Detekce vzájemné (obsahové) podobnosti dokumentů

test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR

test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR

test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR

test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR

test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080 PARTLY CONTAINED IN

test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR

test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR

test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR

test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR

Page 28: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 28 28

SAS Text Summarization (IE)

Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných

konceptů

Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento

Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a

gramatická pravidla, není možné využít lematizátor

Možnosti shrnutí Celý dokument Odstavce Sekce

Berka & Kliegr @ SAS Forum 2011

Page 29: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 29 29

build,7 house,7

Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí.

Berka & Kliegr @ SAS Forum 2011

Page 30: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 30

SAS Sentiment analysis (IE)

Analýza emočního obsahu dokumentů (např. názorů

zákazníků) založená na detekci výskytů slov

nesoucích kladné, záporné a neutrální emoce

Metody:

Statistické modely

Ručně definovaná lingvistická pravidla

Hybridní

Page 31: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 31

SAS Sentiment analysis

Berka & Kliegr @ SAS Forum 2011 31

Page 32: Text Mining: SAS Enterprise Miner versus Teragram

Berka & Kliegr @ SAS Forum 2011 32 32

Možnost využití ve výuce předměty zaměřené na data mining a text mining

SAS EM-TM

předměty zaměřené na zpracování přirozeného jazyka (NLP)

SAS Content Categorization

SAS Sentiment analysis

SAS TM (parsing, filtering)

předměty zaměřené na vyhledávání informací (IR)

SAS Content Categorization

Berka & Kliegr @ SAS Forum 2011

Page 33: Text Mining: SAS Enterprise Miner versus Teragram

Děkuji za pozornost

Petr Berka

[email protected]


Recommended