+ All Categories
Home > Technology > Platforma Yeseter / Memepower 2013

Platforma Yeseter / Memepower 2013

Date post: 04-Jul-2015
Category:
Upload: vaclav-novak
View: 357 times
Download: 5 times
Share this document with a friend
Description:
Přednáška na Matematicko-fyzikální fakultě UK 12. 3. 2013
28
Yeseter: Sledov´ an´ ı a anal´ yza v prostˇ red´ ı soci´ aln´ ıch m´ edi´ ı aclav Nov´ ak Memepower.cz, Yeseter Now [email protected] Aplikace NLP, MFF UK, bˇ rezen 2013
Transcript
Page 1: Platforma Yeseter / Memepower 2013

Yeseter: Sledovanı a analyza v prostredı socialnıch mediı

Vaclav NovakMemepower.cz, Yeseter Now

[email protected]

Aplikace NLP, MFF UK, brezen 2013

Page 2: Platforma Yeseter / Memepower 2013

Obsah prezentace

• Funkce Yeseteru

• Uzivatele

• Technologie a jejich problemy

2 z 27

Page 3: Platforma Yeseter / Memepower 2013

Strategie monitoringu socialnıch mediı

• Listen / Naslouchej

• Measure / Mer

• Understand / Porozumej

• Engage / Zapoj se

3 z 27

Page 4: Platforma Yeseter / Memepower 2013

Nastroje pro monitoring socialnıch mediı

• Globalnı nastroje◦ Radian6◦ Alterian SM2◦ Sysomos

• Nastroje pro cestinu◦ Yeseter (Jaroslav Minha) / WLIP◦ BuzzBoot (Tomas Zeman)◦ eMerite (Martin Petrasek, Czech Power, SE) / VOBID◦ Ataxo (tez Oxata, Peter Wiedemann, s nizozemskym vlastnıkem)/ ASI

4 z 27

Page 5: Platforma Yeseter / Memepower 2013

Sber vybranych diskuzı, blogu, for a socialnıch sıtı

• Zpravodajske servery: clanky a diskuze◦ lidovky.cz, finmag.cz, lupa.cz, aktualne.cz,komorkomania.pl

• Blogy a jejich diskuze◦ blog.respekt.cz, blogatu.ro, akka-xx.blogspot.com,dan-blog.ro

• Diskuznı fora◦ htc-club.ro, forum.ngs.ru, hojko.com, diskuze.libimseti.cz

• Socialnı sıte◦ LinkedIn, Facebook, Google+, Twitter, iWiW, YouTube

5 z 27

Page 6: Platforma Yeseter / Memepower 2013

Zpusoby extrakce potrebnych informacı

• RSS kanaly◦ Resenı pro blogy, zpravodajske servery◦ Problem se zkracovanım prıspevku

• XPath skripty◦ Diskuznı fora, zpravodajske servery bez RSS◦ Oblıbena platforma phpBB casto RSS neposkytuje

• API◦ Facebook, Twitter, YouTube, Google+◦ Problem s kvotami a pokrytım relevantnıch statusu

• Skripty pouzıvajıcı autentifikaci◦ LinkedIn, iWiW

6 z 27

Page 7: Platforma Yeseter / Memepower 2013

Zpracovanı nalezenych dokumentu

Zmínka● detekce jazyka● stemming● analýza sentimentu● identifikace témat

Projekt ProjektProjekt Projekt

7 z 27

Page 8: Platforma Yeseter / Memepower 2013

Trıdenı zmınek do temat a tematickych skupin

Skupiny

Témata

Klíčová slova

Banky Produkty

ČSOB KB Hypotéky Europlatby

ČSOB Komerční banka komerčka Mojehypotéka

ČSOB KB Hypotéky Europlatby

Projekt

8 z 27

Page 9: Platforma Yeseter / Memepower 2013

Statistiky a grafy pro temata

9 z 27

Page 10: Platforma Yeseter / Memepower 2013

Statistiky a grafy pro zdroje

10 z 27

Page 11: Platforma Yeseter / Memepower 2013

Statistiky a grafy pro autory

11 z 27

Page 12: Platforma Yeseter / Memepower 2013

Statistiky a grafy pro sentiment

12 z 27

Page 13: Platforma Yeseter / Memepower 2013

Nejsdılenejsı odkazy

13 z 27

Page 14: Platforma Yeseter / Memepower 2013

Umoznuje pokrocile vyhledavanı a exporty

• Vyhledavanı s ”?”a ”*”

• Fuzzy matchovanı podobnych slov

• Hledanı frazı

• Omezenı na vzdalenost mezi hledanymi slovy

• Logicke operatory a zavorkovanı

14 z 27

Page 15: Platforma Yeseter / Memepower 2013

Prıdavne funkce

• Reporting (dennı reporty)

• Alerting (Uzivatelsky definovana temata)

• Workflow pro praci se zajmovymi zmınkami

• Detekce relevance (moznost rucnı anotace pro trenovanı)

• Sentiment

• Nastavitelna nastenka

• Vyrazenı zdroju pro urcity projekt

• Real-time API (JSON streaming)

15 z 27

Page 16: Platforma Yeseter / Memepower 2013

Uzivatele

• Firmy, o kterych se mluvı

• Marketing

• Veda, politia a vyzkum (sociologie, stranicke sekretariaty)

• Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)

• Media (napr. projekt prezidentske volby s aktualne.cz)

• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz

16 z 27

Page 17: Platforma Yeseter / Memepower 2013

Technologie

• Stroje: Virtualnı privatnı cloud v Praze (Cloud4com), instance sdistribucı Ubuntu

• Webova aplikace: Java Tomcat + MongoDB + GWT

• Vizualizace dat: Google Chart Tools + Dojo

• Ovladanı vizualizacı a vyhledavanı: Perl + Starman + Tenjin +Dojo

• Uchovanı a indexace dat: CouchDB + ElasticSearch / Lucene +MySQL

• Zpracovanı a predavanı dat: Perl/Starman, JSON

17 z 27

Page 18: Platforma Yeseter / Memepower 2013

Uchovanı dokumentu

• Vyhledavanı v 200 milionech dokumentu, denne statisıce novych

• Dokumentova databaze CouchDB (NoSQL)

• Vyhody: obousmerna replikace, rychly zapis novych dat

• Nevyhody: velikost souboru, nezralost, nemoznost dotazovanı,obrı ID

18 z 27

Page 19: Platforma Yeseter / Memepower 2013

Problem pro DB: chybne kodovanı na Facebooku

19 z 27

Page 20: Platforma Yeseter / Memepower 2013

Indexace a vyhledavanı

• ElasticSearch: distribuovana Java RESTsluzba vyuzıvajıcı index Lucene

• Opensource varianta serveru IDOL odAutonomy / HP, bez prıdavnychanalytickych funkcı

• Podobne projektu SOLR, distribuovane,mısto XML JSON

• Lze pouzıt i na jednodussı statistiky, alepak prestava byt skalovatelny

• Slozitejsı statistiky vyzadujıcı SELF JOINjsou reseny specializovanymi tabulkamiv MySQL

20 z 27

Page 21: Platforma Yeseter / Memepower 2013

Problemy rozpoznanı jazyka

• U diskuznıch for a blogu se lze rıdit domenou

• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne

Problemove zdroje

• Facebook – spousta metadat, ale chabe moznosti filtrovanı

• YouTube – nema vyhledavanı v komentarıch

• Twitter – nedostatecna metadata

• Google+

• Narecı, nespisovne tvary

• Chybejıcı diakritika

• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥21 z 27

Page 22: Platforma Yeseter / Memepower 2013

Problemove texty

22 z 27

Page 23: Platforma Yeseter / Memepower 2013

Rozpoznanı jazyka

• Modul pro samotne rozpoznanı jazyka: Josef Toman, UFAL

• Nenı dostatecny, je nutne pridat i model uzivatele

• Jen Twitter ma ale 500 milionu uzivatelu

23 z 27

Page 24: Platforma Yeseter / Memepower 2013

Stemming

• Stemming umoznuje vyhledavat ruzne tvary tehoz slova

•”Nokie“,

”Nokiım“,

”Nokii“,

”Nokia“

• Nekdy nezadoucı:”Matrix“ ×

”Matrika“,

”Sportif“ ×

”Sportage“

• Pro tato slova majı uzivatele k dispozici moznost zakazanıstemmingu

• Ruzne typy jazyku (podle strukturnı typologie) vyzadujı ruznyprıstup

• Morfessor (Otakar Smrz, UFAL): nastroj pro automaticke nalezenıafixu jazyka na zaklade korpusu

24 z 27

Page 25: Platforma Yeseter / Memepower 2013

Specifika stemmingu v socialnıch mediıch

• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (

”Ikea“ →

”Ikey“ vs.

”Nokia“ →

”Nokie“,

”HM“ →

”HMka“)

◦ Narecı (”votravujou“,

”nabızej“,

”kupujo“)

◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (

”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste

blız,to jak te miluji“)◦ Diakritika (klıcova slova (

”CS“), koncovky)

25 z 27

Page 26: Platforma Yeseter / Memepower 2013

Smery resenı

• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (u tweetu nekdy nedokaze bez sirsıho

kontextu ani clovek)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti

Opravy a desambiguace

+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı

Fuzzy matching

− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost

26 z 27

Page 27: Platforma Yeseter / Memepower 2013

Dalsı vyvoj Yeseteru

• Sirsı metadata

• Pokrytı globalnıch socialnıch sıtı

• Automaticka extrakce diskuznıch for

• Lepsı clustering

• Presnejsı detekce sentimentu

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• memepower.cz

• wlip.eu

27 z 27

Page 28: Platforma Yeseter / Memepower 2013

Dalsı vyvoj Yeseteru

• Sirsı metadata

• Pokrytı globalnıch socialnıch sıtı

• Automaticka extrakce diskuznıch for

• Lepsı clustering

• Presnejsı detekce sentimentu

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• memepower.cz

• wlip.eu

27 z 27


Recommended