+ All Categories
Home > Documents > Vícejazyčný monitoring sociálních médií Yeseter

Vícejazyčný monitoring sociálních médií Yeseter

Date post: 04-Jul-2015
Category:
Upload: vaclav-novak
View: 887 times
Download: 0 times
Share this document with a friend
15
ıcejazyˇ cn´ e sledov´ an´ ı a vyhled´ av´ an´ ı aclav Nov´ ak Yellow Snow, Captaworks [email protected] New Media Inspiration, leden 2012
Transcript
Page 1: Vícejazyčný monitoring sociálních médií Yeseter

Vıcejazycne sledovanı a vyhledavanı

Vaclav NovakYellow Snow, Captaworks

[email protected]

New Media Inspiration, leden 2012

Page 2: Vícejazyčný monitoring sociálních médií Yeseter

Yeseter

• Novy vıcejazycny vyhledavac ve spolecenskych mediıch◦ Sbıra vybrane diskuze, blogy, fora a socialnı sıte◦ Trıdı nalezene zmınky do temat a tematickych skupin◦ Zobrazuje statistiky a grafy pro temata, zdroje a autory◦ Umoznuje pokrocile vyhledavanı a exporty◦ Prıdavne funkce (reporting, alerting, workflow, detekce spamu,

sentiment, zebrıcek sdılenych odkazu, nastavitelna nastenka,rebranding, vyrazenı zdroju pro urcity projekt, real-time API)

• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz

• Uzivatele:◦ Firmy, o kterych se mluvı◦ Marketing◦ Veda, politia a vyzkum (sociologie, stranicke sekretariaty)◦ Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)

2 z 14

Page 3: Vícejazyčný monitoring sociálních médií Yeseter

Rozpoznanı jazyka

• U diskuznıch for a blogu se lze rıdit domenou

• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne

Problemove zdroje

• YouTube

• Twitter

• Google+

• Narecı, nespisovne tvary

• Chybejıcı diakritika

• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥

3 z 14

Page 4: Vícejazyčný monitoring sociálních médií Yeseter

Nejhorsı zmınka vubec

4 z 14

Page 5: Vícejazyčný monitoring sociálních médií Yeseter

Kratke texty

5 z 14

Page 6: Vícejazyčný monitoring sociálních médií Yeseter

Smısene texty

6 z 14

Page 7: Vícejazyčný monitoring sociálních médií Yeseter

Podivna slova

7 z 14

Page 8: Vícejazyčný monitoring sociálních médií Yeseter

Kategorizace temat (snımky z online.wlip.cz)

• Vıcejazycne projekty sdılejı strukturu temat

• Lze srovnavat tytez grafy pro ruzne zeme:

8 z 14

Page 9: Vícejazyčný monitoring sociálních médií Yeseter

Srovnatelne vizualizace: temata znacky: HU × CZ

9 z 14

Page 10: Vícejazyčný monitoring sociálních médií Yeseter

Nesrovnatelne vizualizace? temata domen: PL × CZ

10 z 14

Page 11: Vícejazyčný monitoring sociálních médií Yeseter

Stemming

• Stemming umoznuje vyhledavat ruzne tvary tehoz slova

•”Nokie“,

”Nokiım“,

”Nokii“,

”Nokia“

• Nekdy nezadoucı:”Matrix“ ×

”Matrika“,

”Sportif“ ×

”Sportage“

• Ruzne typy jazyku vyzadujı ruzny prıstup:◦ Aglutinacnı: nekolik prıpon mad’arstina, turectina◦ Flektivnı: jedna koncovka cestina, rustina◦ Izolacnı: nejjednodussı, temer nenı treba mandarınstina, anglictina◦ Introflektivnı: tezky: variace uvnitr slova arabstina◦ Polysynteticky: tezky: nezname hranice slov papuanstina

• Ve skutecnosti jsou jazyky smesı typu a majı tendenci se presouvat.

11 z 14

Page 12: Vícejazyčný monitoring sociálních médií Yeseter

Specifika stemmingu v socialnıch mediıch

• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (

”Ikea“ →

”Ikey“ vs.

”Nokia“ →

”Nokie“,

”HM“ →

”HMka“)

◦ Narecı (”votravujou“,

”nabızej“,

”kupujo“)

◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (

”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste

blız,to jak te miluji“)◦ Diakritika (klıcova slova (

”CS“), koncovky)

12 z 14

Page 13: Vícejazyčný monitoring sociálních médií Yeseter

Smery resenı

• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (kolik lidı to dokaze?)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti

Opravy a desambiguace

+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı

Fuzzy matching

− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost

13 z 14

Page 14: Vícejazyčný monitoring sociálních médií Yeseter

Dalsı vyvoj zpracovanı jazyku v Yeseteru

• Ladenı modelu parametru stemmingu pro jednotlive jazyky• Sblızenı moznostı ad hoc hledanı a klasifikace do temat◦ Klasifikace umoznuje vyberove zakazanı stemmingu a operator MINUS◦ Ad hoc hledanı umoznuje fuzzy matching v okruhu omezenem

Levenshteinovskou vzdalenostı◦ Ad hoc hledanı umı zohlednit blızkost slov

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• yeseter.com

• wlip.cz

14 z 14

Page 15: Vícejazyčný monitoring sociálních médií Yeseter

Dalsı vyvoj zpracovanı jazyku v Yeseteru

• Ladenı modelu parametru stemmingu pro jednotlive jazyky• Sblızenı moznostı ad hoc hledanı a klasifikace do temat◦ Klasifikace umoznuje vyberove zakazanı stemmingu a operator MINUS◦ Ad hoc hledanı umoznuje fuzzy matching v okruhu omezenem

Levenshteinovskou vzdalenostı◦ Ad hoc hledanı umı zohlednit blızkost slov

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• yeseter.com

• wlip.cz

14 z 14


Recommended